自然言語処理入門 – 実践編

ここでは、実際のデータを使って分析やモデルの構築を実践しています。

やはりこういった分野は実装を確認したり、自分で実装することによって理解が深まりますので、是非自分の手を動かしていただければと思います。

まずは基本的な統計量などを確認することが最初のステップになります。
実務でもまずはここから始まります。

やっぱりこうなっているのかぁ、へぇ意外とこうなんだという発見があり、個人的には非常に楽しい部分です。

: 【データ分析実践】口コミを使ったキャンプ場に関する分析1 ~ 基礎分析編 ~
キャンプ場の口コミを利用して、最近のキャンプの状況、キャンプサイトについて自然言語処理などを使いながら分析してみたいと思います。これから数回に渡って投稿しますが、まずは、「基礎分析編」として基本的な ...

Bag-of-Wordsモデルを使って、単語の出現回数をもとに分析やモデルを構築をしています。

非常にシンプルなモデルで直感的なのでベンチマークとして利用されることもあります。

ここも単語の傾向が見れて楽しい部分です。

: 【データ分析実践】口コミを使ったキャンプ場に関する分析2 ~ Bag-of-Words編 ~
今回はBag-of-Wordsという手法を使って口コミの分析、評価をしたいと思います。 Bag-of-Wordsについてピンとこないという方は、以下の投稿でイメージを掴めるようにしておりますのでご参照 ...

Word2Vec

Word2Vecを使って、口コミに出現する単語の分散表現を獲得しています。

Word2Vecは、
Queen = King - Man + Woman
といった、単語間の線形関係を表されるの、ここでも同じように試しています。

こちらも単純に楽しむことができます。

: 【データ分析実践】口コミを使ったキャンプ場に関する分析3 ~ Word2Vec編 ~
では、今回は分析や星の数を当てるモデルを構築するのではなく、以下で説明したWord2Vecという単語の埋め込み表現(Word Embedding)を作成してみましょう。 https://data-an ...

時系列モデルであるLSTMを使って、口コミの評価をしています。

Bag-of-Wordsから本格的に単語の時系列として文章を評価するようになり、それなりの精度が達成できます。

: 【データ分析実践】口コミを使ったキャンプ場に関する分析4 ~ Recurrent Neural Network, LSTM実装編 ~
前回はWord2Vecを使った単語の埋め込み表現を使って遊びました。その前は、Bag-of-Wordsモデル+ロジットモデルを使って、データの分析及びレビュー評価を行いました。今回は、今までの知識を ...

埋め込み表現を使ったBag-of-Words

埋め込み層を使ったシンプルなBag-of-Wordsモデルで口コミの評価をしています。

単語の出現回数ではなく、単語の意味を考慮しています。

仕組みは非常にシンプルですが、処理も速く、精度もそこそこ出ることから、こちらもベンチマークとして利用することができます。

: 【データ分析実践】口コミを使ったキャンプ場に関する分析5 ~埋め込み表現を使ったBag-of-Wordsモデル実装編 ~
今回はまたしてもBag-of-Wordsモデルを使っていきたいと思います。ただ、前回のように単語の出現回数をもとにしたTF-IDFのようなやり方ではなく、前回使ったWord2Vecなどの単語の埋め込み ...

画像認識では完全に主流になっているCNNを自然言語処理に利用しています。

RNNだと時系列でアウトプットを次の時点に渡していくので、文章が長くなると最初の方の情報が落ちてしまうという問題に対応できます。

: 【データ分析実践】口コミを使ったキャンプ場に関する分析6 ~Convolutional Neural Network(CNN)実装編 ~
では、今回は畳み込みニューラルネットワーク(Convolutional Neural Network; CNN)を使ってみたいと思います。CNNは、主に画像系のディープラーニングで使われることの多いモ ...

自然言語処理の発展において、非常に重要な仕組みであるAttentionメカニズムを実装しています。

一度は自分の手で実装しても良いと思います。

どこに注意を向けているか？についても確認しています。

: 【データ分析実践】口コミを使ったキャンプ場に関する分析7 ~Attentionメカニズム実装編 ~
Attentionメカニズムを使ったセンチメント分析今回はLong Short-Term Memory(LSTM)にAttentionメカニズムを加えたモデルを作成したいと思います。 Attenti ...

RNNを使って文章生成を試みています。

サンプルデータも少ないですが、比較的うまく生成できています。

単純に楽しむためのものとして作っています。

: 【データ分析実践】RNNを使って文章生成を実装してみる
では、今回は今までの星の数当てではなく、再帰的ニューラルネットワーク(RNN)を使って、文章生成をやってみたいと思います。こちらのTensorflowのチュートリアルを参考にしています。 RNNにつ ...

現在主流の仕組みであるTransformerを実装し、口コミ評価をしています。

だんだんモデルが複雑化してきているので、論文を読んだだけでは完全に理解することは難しいかもしれませんが、自分で実装すればかなり理解することが可能です。

: 【データ分析実践】口コミを使ったキャンプ場に関する分析8 ~Transformer実装編 ~
今回はTransformerで口コミの評価をしたいと思います。 Transformerは、RNNやCNNを使わないことから、高速に計算できるモデルとして、BERTやXLNetなどでも使われている重要な ...

非常に重要な学習手法である事前学習-ファインチューニングというステップの影響を実際のデータを使って確認しています。

このステップにより、少量のデータでもうまくいくことがわかります。

この発見は現在も今後も重要な要素になっています。

: 【データ分析実践】口コミを使ったキャンプ場に関する分析(事前学習-ファインチューニング実装編)
以下の投稿では、事前学習-ファインチューニングについて解説しました。この考え方は非常に重要なので一度簡単なモデルを使って実装してみたいと思います。 https://data-analytics.fun ...