【データ分析実践】口コミを使ったキャンプ場に関する分析(事前学習-ファインチューニング実装編)

以下の投稿では、事前学習-ファインチューニングについて解説しました。この考え方は非常に重要なので一度簡単なモデルを使って実装してみたいと思います。

: 事前学習 - ファインチューニングを理解する
今回は「事前学習(pre-training) - ファインチューニング(fine-tuning)」を説明したいと思います。以下の2015年の論文を参考に説明していきます。『Semi-supervi ...

1 事前学習-ファインチューニングとは
2 実装
- 2.1 事前学習
- 2.2 ファインチューニング
3 結果
4 まとめ

事前学習-ファインチューニングとは

事前学習とは簡単に言うと、特定のタスクを解くためのモデルを構築する前に、一般的な知識を得ておくということです。自然言語処理では、一般的に2種類の事前学習があります。

単語の埋め込み表現について、Word2VecやGloVeといった手法を用いて事前学習された結果を使う。
言語モデルを特定のモデルで事前に学習する。

今回は、2つめの言語モデルを特定のモデルで事前に学習することの効果を見ていきたいと考えています。

言語モデルの事前学習は一般的には、Wikipediaコーパスなどの大きなラベルなしデータを使って学習します。そして、一般的な言語モデルを習得したうえで、センチメント分析などの特定のタスクにそのモデルを使って、予測するようにパラメータを調整します。

では、早速実装してみましょう。

実装

事前学習

今回は、以下のような1層のLong Short-Term Memory(LSTM)を使いたいと思います。各時点で次の時点の単語を予測します。

実装は普通のLSTMですが、return_sequences=Trueとすることで、各時点の隠れ層の値も出力するようにします。そして、Denseレイヤーで、ボキャブラリー・サイズの出力をします。

from tensorflow.keras.layers import LSTM, Embedding, Input, Dense, Dropout
from tensorflow.keras.models import Sequential, Model
def lstm_model(vocab_size, emb_dim, seq_length, hidden_dim, dropout_rate=0.0):
    x_input = Input(shape=seq_length)
    # Embedding layer
    emb = Embedding(input_dim=vocab_size, output_dim=emb_dim, mask_zero=True)(x_input)
    # LSTM layer
    lstm_output = LSTM(hidden_dim, return_sequences=True, dropout=dropout_rate)(emb) 
    # Dropout layer
    lstm_output = Dropout(dropout_rate)(lstm_output)
    # Dense Layer: softmax
    output = Dense(vocab_size, activation='softmax')(lstm_output)
    model = Model(inputs=x_input, outputs=output)
    return model

データはこのような形で、ひとつずらすことにより作成しています。

x_pretrain = [x[:-1] for x in x_train]
y_pretrain = [x[1:] for x in x_train]

そして、モデルをコンパイルし、学習します。

epochs = 60
batch_size = 32
model = lstm_model(len(tokenizer.index_word)+1, 200, seq_length=MAX_LEN,
                    hidden_dim=512, dropout_rate=0.3)
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')
model.fit(x_pretrain_padded, y_pretrain_padded, epochs=epochs, shuffle=True, 
         batch_size=batch_size)

lossが十分下がったところで、事前学習を終了します。もっと続けても良いかもしれません。

...
865/865 [==============================] - 359s 415ms/step - loss: 0.6193
Epoch 57/60
865/865 [==============================] - 360s 416ms/step - loss: 0.6146
Epoch 58/60
865/865 [==============================] - 360s 416ms/step - loss: 0.6114
Epoch 59/60
865/865 [==============================] - 360s 416ms/step - loss: 0.6078
Epoch 60/60
865/865 [==============================] - 359s 416ms/step - loss: 0.6042

これで事前学習は終了です。

ファインチューニング

では、次はファインチューニングをしたいと思います。

今回はセンチメント分析なので、LSTMの各時点の出力について、次元ごとに平均を取って評価したいと思います。図にすると以下のような形です。

では、こちらがモデルの部分です。

from tensorflow.keras.layers import GlobalAveragePooling1D
def lstm_classification_model(vocab_size, emb_dim, seq_length, hidden_dim, dropout_rate=0.0):
    # Input layer
    x_input = Input(shape=seq_length)
    # Embedding layer
    emb = Embedding(input_dim=vocab_size, output_dim=emb_dim, mask_zero=True)(x_input)
    # LSTM layer
    lstm_output = LSTM(hidden_dim, return_sequences=True, dropout=dropout_rate)(emb) 
    # Average Pooling layer
    output = GlobalAveragePooling1D()(lstm_output)
    # Dropout layer
    output = Dropout(dropout_rate)(output)
    # Dense layer
    output = Dense(1, activation='sigmoid')(output)
    model = Model(inputs=x_input, outputs=output)
    return model

EmbeddingレイヤーとLSTMレイヤーは事前学習で学習したウェイトを初期値として使用し、Denseレイヤーは新しくスクラッチで学習します。

# モデルの生成
pretrained_lstm_classification_model = lstm_classification_model(
    vocab_size=len(tokenizer.word_index) + 1, emb_dim=200, seq_length=MAX_LEN, 
    hidden_dim=512, dropout_rate=0.5)
# embeddingレイヤーとLSTMレイヤーはpretrainingしたウェイトを使う
pretrained_lstm_classification_model.layers[1].set_weights(
                                      model.layers[1].get_weights())
pretrained_lstm_classification_model.layers[2].set_weights(
                                      model.layers[2].get_weights())
# モデルのコンパイル
pretrained_lstm_classification_model.compile(optimizer='adam',
                                             loss='binary_crossentropy',
                                             metrics='acc')

あとは、普通に学習させます。実験のためdata_rangeを変化させて、学習に用いるデータ数を変えています。

epochs=20
data_range=200
pretrained_lstm_classification_model.fit(x_train[:data_range],
          y_train[:data_range], 
          epochs=epochs, shuffle=True, validation_data=(x_test, y_test))