【データ分析実践】口コミを使ったキャンプ場に関する分析4 ~ Recurrent Neural Network, LSTM実装編 ~

2020年3月17日 2020年4月11日

前回はWord2Vecを使った単語の埋め込み表現を使って遊びました。その前は、Bag-of-Wordsモデル+ロジットモデルを使って、データの分析及びレビュー評価を行いました。

今回は、今までの知識を使いながらも、新たに再帰的ニューラル・ネットワーク(Recurrent Neural Network; RNN)の一つLSTM(Long Short-Term Memory)を使ってモデルを構築したいと思います。

1 LSTM(Long Short-Term Memory)とは
2 構築するモデルについて
3 モデル構築結果
- 3.1 2値分類
4 まとめ

LSTM(Long Short-Term Memory)とは

LSTMとはRecurrent Neural Networkの一つで、それ以前のシンプルなRecurrent Neural Networkでは、勾配消失や勾配爆発といった現象が起こってしまい、長い時系列データの処理ができませんでした。そこで出てきたのが、LSTMです。LSTMは1997年に以下の論文で最初に提案され、その後も、LSTMをもう少しシンプルにしたGRU(Gated Recurrent Unit)などが提案され、それらもよく使われているモデルです。

このモデルのポイントは、長期の時系列のデータをうまく扱えられることにあり、文章を単語の時系列データと見ることにより、うまく翻訳やセンチメント分析に適用することができます。

LSTMについてはこちらをご参照ください。

: 再帰的ニューラル・ネットワーク(Recurrent Neural Network; RNN)を理解する
再帰的ニューラル・ネットワーク(RNN)とは時系列のデータをうまく処理するモデルシンプルなRNNだと勾配消失という問題があり、長期の依存関係をうまく取り扱えないそこでLong Short-Term ...

LSTM自体は1997年に既に提案されていましたが、自然言語処理に適用されたのは2014年とかなり後になります。その論文はこちらです。

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.248.4448&rep=rep1&type=pdf

ちなみに、シンプルなRecurrent Neural Networkを使った自然言語処理は2010年のこちらの論文です。

https://www.fit.vutbr.cz/research/groups/speech/publi/2010/mikolov_interspeech2010_IS100722.pdf

構築するモデルについて

今回は以下のようなモデルを構築します。

文章を左から右に読むLSTMではなく、左から右と右から左に読む両方を使ったBidirectional LSTMを使いたいと思います。以下のようなイメージです。

プログラムはTensorflowのKeras APIを使っています。まだまだシンプルにSequentialを使って構築可能です。 (ドロップアウトの設定などちょっと雑ではありますが…)

from tensorflow.keras.layers import Embedding, LSTM, Bidirectional
def lstm_model(input_dim, embedding_dim=128, hidden_units=32, dropout=0.0, l2_regularizer=0.0):
    model = Sequential()
    model.add(Embedding(input_dim=input_dim, output_dim=embedding_dim))
    model.add(Bidirectional(LSTM(hidden_units, dropout=dropout, 
                                 kernel_regularizer=regularizers.l2(l2_regularizer))))
    model.add(Dense(1, activation='sigmoid', kernel_regularizer=regularizers.l2(l2_regularizer)))    
    return model