【データ分析実践】口コミを使ったキャンプ場に関する分析2 ~ Bag-of-Words編 ~

今回はBag-of-Wordsという手法を使って口コミの分析、評価をしたいと思います。

Bag-of-Wordsについてピンとこないという方は、以下の投稿でイメージを掴めるようにしておりますのでご参照ください！

https://data-analytics.fun/2020/03/06/bag-of-words/

1 データについて
2 単語の出現回数
3 口コミから評価を予測する
4 2値問題
5 データの偏りについて
6 まとめ

データについて

データについては前回と同様、キャンプ場の口コミを利用させていただきます。

各レビューには 1から5の星マークがついています。

単語の出現回数

Bag-of-Wordsとは簡単に言うと、単語の順番を考えずに、単語の出現回数のみを使うモデルです。
ということで、まず文章を単語に分割します。

例えばある項目に関して、全体で出現回数が多い名詞は以下のようになっています。

単語	出現回数
受付	2737
スタッフ	2584
方	2564
説明	2448
対応	2360
時	2311
丁寧	2131
ゴミ	1972
こと	1544
親切	1508

やはり「受付」の「スタッフ」に関することが多いようです。
確かに、最初や何かを聞きにいったときの「受付」の「スタッフ」の「方」の「説明」が「丁寧」だったり「親切」にしてもらえると嬉しいですよね。

あと、他の項目ではこんな感じです。

単語	出現回数
トイレ	5879
場	4951
炊事	3468
シャワー	3180
風呂	2202
お湯	2087
サイト	1798
綺麗	1720
利用	1674
こと	1296

「トイレ」、「炊事・場」「シャワー」、「お風呂」に関することが多いようです。

ファミリーや最近は女子キャンプも多いので「トイレ」や「お風呂」が「綺麗」な方がいいですね。

また、「炊事・場」は「お湯」が出ると手が凍りそうにならなくて助かりますよね。

他の項目は特に掲載しませんが、周辺環境であれば「温泉」、「スーパー」、「コンビニ」などが上位に入っています。

といった具合で、単語の回数を調べるだけで、こんなに楽しくなってきます(笑)。

口コミから評価を予測する

では、次に口コミから評価、つまり星の数1～5個を予測するモデルを作ってみたいと思います。

モデルは単語の出現回数を説明変数としたシンプルなロジットモデル（ロジスティック回帰モデルを分類問題に適用）を使いたいと思います。

ただし、Bag-of-Wordsの解説記事にも記載しましたが、そのまま単語の回数を説明変数として使ってしまうと、どの文章にも出てくるような単語の重みが高くなってしまう場合がありますので、説明変数をTF-IDF(Term Frequency - Inverse Document Frequency)に変換したいと思います。

TF-IDFへの変換やモデル構築は、TensorflowのKeras APIを使いました。Scikit-Learnを使ってもよかったのですが、普段業務ではTensorflowの方がよく使うので、使い慣れているTensorflow Keras APIを使いたいと思います。

評価の分布

まず、全体の星の分布を見てみましょう。星5個と4個が圧倒的に多いですね。星1個とか星2個とかはあまりありません。

皆さん楽しむことができているということでしょうか。

いいですね、皆さん満足して帰ることが多いようです。

ただし、モデルで予測するとなるとこれは多少問題があります。

この問題については、今は触れずに最後に簡単に触れたいと思います。

興味がある方は読んでいただければと思います。

モデル構築の設定

まず、全データを学習データ60%、テストデータ40%として以下の設定で学習しました。

使った単語の数は出現回数の多い5000単語
バッチサイズ64
エポック数100
L2正則化係数0.1

L2正則化係数といったハイパーパラメータはvalidation setを作成して、最適な設定に合わた結果です。

モデル構築結果

では、モデルの構築結果です。

学習データの正解率は約62%、テストデータの正解率は56%となっています。

多少オーバーフィッティングが見られますが、自然言語処理ではテストデータに学習データにない単語や表現が出てくることが多いので、どうしてもある程度オーバーフィッティングしてしまいます。

**サービスの口コミに関してもモデルを構築した結果。左から損失関数、平均二乗誤差、正解率。**

星の数に影響する単語を分析

では、どんな単語が星の数に影響しているかを見てみましょう。

ロジットモデルの係数を大きい順に並べていきましょう。

TF-IDFを正規化して平均0、分散1にしているため係数の大きさが単語の効きと考えます（正規化していない場合、単に係数を比較すると説明変数の大きさに影響を受けてしまうので、係数に説明変数の標準偏差をかけるなどする必要があります）。

サービスについて見てみましょう。

以下は星5個に分類する係数です。
やはり、星5個をもらうためには、「スタッフ」が「丁寧」だったり「親切」だったりする必要がありますね。
「普通」だったり「残念」に感じさせるようではダメということですね。当然の結果ということでしょうか。

良い単語	係数	悪い単語	係数
丁寧	0.088	普通	-0.097
親切	0.082	ない	-0.077
素晴らしい	0.058	残念	-0.070
さん	0.057	可	-0.067
いただく	0.056	不可	-0.065
スタッフ	0.054	悪い	-0.065