自然言語処理入門 - 応用編

ここでは、入門的な内容を理解している方向けに、自然言語処理モデルの解説をしています。

ただし、応用編と言っても、基本的な内容から説明しています。

まず、全体感をつかむために自然言語処理の歴史、特にニューラルネットワークを使ったものについての歴史を概観しています。

自然言語処理の歴史

ニューラルネットワークを使った自然言語処理の歴史を簡単にまとめています。

ある程度自然言語処理モデルを理解してから読んでいただいてもいいですし、まだまったくわからないけど、どんな風に発展してきているのか知りたい、という方に読んでいただいていてもいいと思います。

: ニューラルネットワークを使った自然言語処理の歴史を理解する
では、今回は今まで見てきたモデルを中心に、自然言語処理の発展の歴史を確認していきたいと思います。最近話題のBERTやその発展形であるXLNetなども歴史を追っていくと、どこがどうすごいのか、どういっ ...

1 入門的なモデル
2 Attentionメカニズム
3 転移学習
4 事前学習言語モデル
5 BERTを改良したモデル
6 固有名詞をうまく扱う手法
7 文書の埋め込み表現を求める
8 モデルを支える技術

入門的なモデル

ここまでの入門的なモデルです。

Bag-of-Words

Bag-of-Wordsは、説明変数に単語の回数やそれを調整したTF-IDF(Term Frequency- Inverse Document Frequency)を使った手法です。

結果がわかりやすく、簡単に実装することができるので、ベースラインモデルとして利用されることが多いです。

: Bag-of-Wordsを理解する
今回はテキスト分類や文章のセンチメント分析でよく使われるBag-of-Wordsという手法を紹介したいと思います。 Bag-of-Wordsは直観的にわかりやすいモデルで、問題によってはより複雑なモデ ...

Word2Vec

単語の意味を表すベクトルである埋め込み表現(分散表現)を計算する手法です。

非常にシンプルなニューラルネットワークを利用することにより、Queen = King - Man + Womanというような単語同士の線形関係が捉えられます。

: Word2Vecを理解する
さて、今日はみんな大好き Word2Vec を解説したいと思います。 Word2Vec の結果を見たり、遊んでみたりするのは、非常に楽しいですので、まずはざっくり概要を解説したいと思います。 Word ...

再帰的ニューラルネットワーク

再帰的ニューラルネットワーク自体は、既に時系列データのモデリングで利用されていましたが、それを自然言語処理に適用しました。

文章を単語の時系列データとみなして、処理をする手法で、長く自然言語処理の主要なモデルとして利用されています。

: 再帰的ニューラル・ネットワーク(Recurrent Neural Network; RNN)を理解する
再帰的ニューラル・ネットワーク(RNN)とは時系列のデータをうまく処理するモデルシンプルなRNNだと勾配消失という問題があり、長期の依存関係をうまく取り扱えないそこでLong Short-Term ...

Attentionメカニズム

Attentionメカニズム

重要な単語や箇所に注意を向けながら翻訳していくモデルです。

現在主流のモデルの最重要コンポーネントの一つですので、理解は必須です。

: Attentionメカニズムを理解する
今回は、論文「Neural Machine Translation by Jointly Learning to Align and Translate」で提案され、そこから Transformer ...

Transformer

処理の高速化のため、LSTMを使わずAttentionメカニズムを全面的に採用したモデルです。

BERTやOpenAI GPTなど現在主流の多くのモデルはこのTransformerベースとなっています。

: 【論文解説】Transformerを理解する
では、今回は2017年に論文「Attention Is All You Need」で提案された “Transformer” について詳しく解説したいと思います。『Attention is All Y ...

Transformer-XL

Transformerを長文に対応させたモデルです。

BERTの進化形であるXLNetにも採用されている仕組みです。

: Transformer-XLを理解する
今回は、Transformerの改良版であるTransformer-XLの論文を読んでみたので、詳しく見ていきたいと思います。 Transformer-XLは“Transformer Extra La ...

転移学習

事前学習-ファインチューニング(転移学習)

モデルというよりは、学習の手法になります。

事前学習-ファインチューニングのステップを踏む効果は非常に大きく、これにより現在のモデルの精度が達成されたと言えます。

: 事前学習 - ファインチューニングを理解する
今回は「事前学習(pre-training) - ファインチューニング(fine-tuning)」を説明したいと思います。以下の2015年の論文を参考に説明していきます。『Semi-supervi ...

事前学習-ファインチューニング2

事前学習-ファインチューニング(転移学習)の考え方は非常に重要ですので、もう少し掘り下げて見ています。

どの層は転移しやすいかなど興味深い話が多いです。

: 事前学習-ファインチューニングをもう少し理解する
こちらの記事で事前学習-ファインチューニングについて説明しましたが、もう少し深く理解したいと思い、論文を読みましたので紹介したいと思います。 https://data-analytics.fun/20 ...

事前学習言語モデル

ULMFiT

ここからモデルの発展と転移学習が合わさったことにより、どんどんSoTAを達成していきます。

LSTMに対して転移学習をしますが、これまでの研究成果をもとにした細かい工夫がたくさんあります。

: ULMFiTを理解する
前回、事前学習-ファインチューニングに関する記事を書いたので、次はその発展形ともいえるUniversal Language Model Fine-tuning(ULMFiT)について説明していきたいと ...

ELMo

こちらもLSTMベースの転移学習です。

これまでは単語には一つの意味しか持たせられないというのが通常でしたが、ELMoでは文脈に応じた単語表現を求め、それをタスクに合わせたモデルに転移していきます。

: 【論文解説】ELMoを理解する
では、今回は2018年の重要論文の一つである“ELMo”の解説をしたいと思います。 ELMoの論文のタイトルは、“Deep contextualized word representations”であ ...

OpenAI GPT

Transformerに転移学習をさせています。

ELMoと違いタスクごとにモデルの構造を変える必要がありません。

GPT2、GPT3と発展していきますが、仕組み自体はGPTがわかっていれば十分です。

: 【論文解説】OpenAI 「GPT」を理解する
今回は OpenAI が提案する OpenAI 「GPT」を解説したいと思います。なお、現在ではGPT2、GPT3、GPT4 とどんどん発展していますので、そちらが気になる方は以下の記事をご参照くだ ...

BERT

自然言語処理界において、一つのブレイクスルーとなったモデルです。

仕組みはTransformerに転移学習を組み合わせた形ですが、転移学習に工夫を加えています。

: 【論文解説】BERTを理解する
今回は自然言語処理で一つのブレイクスルーとなったBERTについて解説したいと思います。現時点で、BERTは極めて重要なモデルですので是非しっかり理解していただければと思います。もちろん新しい仕組み ...

BERTを改良したモデル

XLNet

BERTを超えようとBERTに改良を加えたモデルです。

BERTのMasked Language Modelを修正することによって、より厳密なモデルを構築しています。

: XLNetを理解する
今回はBERTを超えたというXLNetの論文を見ていきたいと思います。 BERTでは事前学習に“Masked LM”による双方向TransformerおよびNext Sentence Predicti ...

RoBERTa

BERTはそのモデルの持つ最大限の力を出し切っていないということで、モデルの仕組みはそのままで色々な調整を加えてSoTAを達成しています。

一つの重要なポイントはデータ量を増やして事前学習したところです。

: RoBERTaを理解する
今回は、BERTの仕組みはそのままで、ハイパーパラメータの調整や学習用のデータ量を増やすことによって、BERTの精度を大幅に上回ることに成功したRoBERTa(Robustly optimized B ...

ALBERT

BERTをさらに大きなモデルにしようというものです。

ただ、単純にレイヤーなどを増やして大きなモデルにすると計算付加が大きくなりすぎるので、工夫をしてパラメータ数を減らし、大きなモデルにしています。

: ALBERTを理解する
さて、今回もBERTをベースとした改良版であるALBERTについて解説したいと思います。一言で言うと、ALBERTはBERTをさらに大きなモデルにすることにより、精度の向上を図るものです。ただ、メ ...

Reformer

Transformerの仕組みでは、長文を処理しようとするとメモリの消費量が文章の長さの2乗にh例して多くなります。

そこでAttentionに工夫をして、メモリ消費量を大幅に抑えました。

それによりWikipedia全文などを処理することができるようになっています。

: Reformerを理解する
今回はTransformerの改良版であるReformerを解説したいと思います。 BERTもそうですが、Transformerで長文を処理しようとすると、非常にメモリ使用量が多く、2000単語ぐらい ...

固有名詞をうまく扱う手法

ERNIE

BERTの仕組みで、事前学習に固有名詞の知識を学習させています。

これにより、事前知識を使った推論を行うことが可能になります。

: ERNIE(Enhanced Language Representation with Informative Entities)を理解する
さて、今回はBERTの改良版であるERNIEについて解説したいと思います。 ERNIEというのは2種類あり、こちらが今回ご紹介する論文“ERNIE: Enhanced Language Represe ...

ERNIE(Baidu)

こちらはBaiduにより提案されたモデルで、BERTの仕組みはそのままで、フレーズ単位のマスキングを行ったり、エンティティ(固有名詞)単位のマスキングを行うことにより、より賢くBERTを学習させようというものです。

: ERNIE(Enhanced Representation through Knowledge Integration)を理解する
今回はBERTの改良版であるERNIEの論文を読みたので解説したいと思います。 https://arxiv.org/abs/1904.09223 これとは同時期に別のERNIE(Enhanced La ...