【データ分析実践】口コミを使ったキャンプ場に関する分析5 ~埋め込み表現を使ったBag-of-Wordsモデル実装編 ~

2020年3月15日 2020年4月11日

今回はまたしてもBag-of-Wordsモデルを使っていきたいと思います。ただ、前回のように単語の出現回数をもとにしたTF-IDFのようなやり方ではなく、前回使ったWord2Vecなどの単語の埋め込み表現を利用したモデルを構築したいと思います。

Word2Vecを使った単語の埋め込み表現に関する記事はこちらです。

: 【データ分析実践】口コミを使ったキャンプ場に関する分析3 ~ Word2Vec編 ~
では、今回は分析や星の数を当てるモデルを構築するのではなく、以下で説明したWord2Vecという単語の埋め込み表現(Word Embedding)を作成してみましょう。 https://data-an ...

1 構築するモデル
2 構築結果
3 まとめ

構築するモデル

今回のモデルのポイント

埋め込み表現の平均を取るだけのシンプルなモデル
その割に精度が良い！

今回構築するモデルは極めてシンプルですが、その割に精度が良くて驚きます。次回見てみるLSTMより圧倒的にはやいですし、より複雑なモデルを構築するのに、ベンチマークとしていいと思います。

モデルは以下の図のように、インプット→embeddingレイヤー→average poolingレイヤー(単純に平均を取るだけ)→Denseレイヤー with シグモイド関数 or ソフトマックス関数、という形で非常にシンプルです。

Average Poolingレイヤーは何をやっているかというと、Embeddingレイヤーからの出力は、“文章の長さ”×“単語の埋め込みの次元”ですが、それを文章方向に平均をとることで、単語の埋め込み表現と同じ次元のベクトルにしています。これを“文章の埋め込み表現”とするものです。

プログラムはこんな感じです。こちらも、Sequentialを使って簡単に表現できます。必要に応じてドロップアウトや正則化を入れてもいいです。

from tensorflow.keras import Sequential
from tensorflow.keras.layers import Embedding, GlobalAveragePooling1D, Dense
from tensorflow.keras.optimizers import Adam

embedding_dim = 200
model = Sequential([
  Embedding(MAX_WORD+1, embedding_dim),
  GlobalAveragePooling1D(),
  Dense(1, activation='sigmoid')
])
model.compile(loss='binary_crossentropy', optimizer=Adam(), metrics=['acc'])
history = model.fit(
    x_train, y_train,
    epochs=5,
    validation_data=(x_test, y_test), validation_steps=20)

またこのモデルも単語の順番を考慮せず、すべての埋め込み表現を各次元ごとに平均しているだけなので、Bag-of-Wordsの一種と言えます。ただ、単語の意味を考慮し、出現する単語のベクトルの平均を取ることで、文章をざっくりと表現しているといれると思います。

構築結果

結果は、

学習データ：83.2％
テストデータ：81.5%

と前回のTF-IDFと2項ロジットモデルの77.7.％を3.8%も上回っています！非常にシンプルですがなかなか精度が良いので、TF-IDFと並んでベンチマークとして良いと思います。前回の結果はこちらです。

: 【データ分析実践】口コミを使ったキャンプ場に関する分析2 ~ Bag-of-Words編 ~
今回はBag-of-Wordsという手法を使って口コミの分析、評価をしたいと思います。 Bag-of-Wordsについてピンとこないという方は、以下の投稿でイメージを掴めるようにしておりますのでご参照 ...