【データ分析実践】口コミを使ったキャンプ場に関する分析1 ~ 基礎分析編 ~

データ分析実践
うう

キャンプ場の口コミを利用して、最近のキャンプの状況、キャンプサイトについて自然言語処理などを使いながら分析してみたいと思います。

これから数回に渡って投稿しますが、まずは、「基礎分析編」として基本的な事項について確認していきたいと思います。おいおい、もう少し本格的な自然言語処理を使って色々遊んでみたいと思います。 プログラム言語はPythonを使っております。

データについて

まず、データについてですが、キャンプサイト数は330、口コミ数は10,270となっています。

各キャンプサイトには、1から5の星マークがついています。

キャンプサイト評価の分布

まず、全体評価のヒストグラムを見ると、だいたい4~4.5点のキャンプ場が多いようです。2.5点以下のキャンプ場はないようですね。平均は4.07点、中央値4.09点、標準偏差は0.38点、25%点は3.86点、75%点は4.32点です。

平均が3点ぐらいになるイメージですが、全体的に点数が高いようですね。逆に3点だとキャンプ場の中ではかなり評価が低いようです。

全体評価の分布
平均 中央値 標準偏差 25%点 75%点
4.07点4.09点0.38点3.86点4.32点

次に個別項目の評価の分布を見たいと思います。seabornのpairplotを使って、個別項目のヒストグラムと散布図を見ました。どれも分布は似ており、4点ぐらいが一番多くなっています。相関については、「サービス」、「管理」、「設備」が高くなっており、「周辺環境」と「立地」も次いで高くなっています(相関係数そのもので確認しています)。まあ、妥当な結果かなと思います。

ペアプロットによる各項目の分布

個別レビューからキャンプスタイルを見てみる

個別のレビューには「訪問日」など載っているので、そこから確認します。

まずは、月ごとの訪問数を見てみましょう。
一番多いのは8月です。キャンプと言えば夏ですし、ファミリーにとっては子供の夏休みを利用して行くことが多いので妥当な結果ですね。また、5月も多いですが、GWを利用しているということで、こちらも納得の結果ですね。寒い真冬の12月から2月はかなり少ないです。3月も少ないですが、比較的暖かい場所であればもしかすると逆にねらい目かもしれません。

訪問月と訪問数

では次に、最近の口コミ数の推移を見てみましょう。2016年から右肩上がりですね。口コミ数なので、キャンプに行っている数の傾向とは必ずしも一致しませんが、最近のキャンプ場の予約の取りづらさを考えると、こういった盛り上がり方をしているのかなと思います。

訪問年と訪問数

では、最後にキャンプに行っている人のスタイル別の推移を見てみましょう。「ファミリー」、「グループ」、「ソロ」、「女子」すべて増加しています。

タイプ別の訪問数

割合を見ると、ソロキャンプが増えているようです。確かに、最近はYouTubeでもソロキャンプの動画も多いですし、人気が出ているようですよね。

タイプ別の割合

というわけで、キャンプ場の口コミを使って、簡単な基礎分析を行ってみました。次回からは、いわゆる「自然言語処理モデル」を使って、口コミから星の数を予測するモデルを構築していきたいと思います。

mm0824

システム開発会社や金融機関で統計や金融工学を使ったモデリング・分析業務を長く担当してきました。

現在はコンサルティング会社のデータ・サイエンティストとして機械学習、自然言語処理技術を使ったモデル構築・データ分析を担当しています。

皆様の業務や勉強のお役に立てれば嬉しいです。

mm0824をフォローする
データ分析実践
mm0824をフォローする
楽しみながら理解する自然言語処理入門

コメント

タイトルとURLをコピーしました