【論文解説】OpenAI 『DALL-E』を理解する

さてさて、以前OpenAIの『DALL-E』のブログをもとに、モデルを想像しながら解説しましたが、もう既に論文が出ていますので、今回はきちんと論文に沿って解説をしていきたいと思います。

: 文章から画像を生成するOpenAI 「DALL-E」について解説
2021年1月5日にOpenAIのサイトに「DALL·E: Creating Images from Text」という記事が公開されました。 OpenAIは最近、自然言語処理技術を使って非常に自然なニ ...

『DALL-E』は文章を与えると、それに沿った様々な画像が生成される非常に面白いモデルです。

例えば、こちらは“森に住むカピバラのＸ線写真”を与えたときに生成された画像です。

ブログの解説の方にはDALL-Eという名前の由来の説明や色々な画像を生成した例を載せていますので、そちらもご参考にしていただければと思います。

また、VQ-VAEを理解しておくと、こちらも理解しやすくなると思いますので、VQ-VAEの記事も参考にしていただければと思います。

: 【論文解説+Tensorflowで実装】VQ-VAEを理解する
今回は、VQ-VAE(Vector Quantised-Variational AutoEncoder)を解説したいと思います。 VQ-VAEもVAE(Variational AutoEncoder) ...

「DALL-E」からさらに進化した「DALL-E2」のベータ版が公開されており、そちらを使った画像生成結果を以下の記事で紹介しています。

ご興味のある方は、どんなことができるかやそのクオリティを確認していただければと思います。

: AIに言葉で伝えて絵を描く時代！？ OpenAI 『DALL-E2』ベータ版を使ってみる
とうとうOpenAIの『DALL-E2』の順番待ち(waitlist)から、実際に使えるようになりました！私の家はけっこう壁に小さな絵やポスターを飾っているのですが、妻にDALL-Eで生成するところ ...

では、早速以下の論文をもとに見ていきましょう。

論文はこちらです。

『Zero-Shot Text-to-Image Generation』

1 DALL-Eとは
2 DALL-Eの仕組み
3 モデルの詳細
4 実験
- 4.1 Qualitative Findings
5 まとめ

DALL-Eとは

『DALL-E』はテキスト情報を画像を生成する“text-to-image generation”のモデルです。

以下が実際にテキストから画像を生成した例です。

例えば、(a)だと、

アコーディオンから作られたバク。アコーディオンの模様をしたバク。

というテキスト情報から生成された例です。

恐らく学習データに“アコーディオンから作られたバク”というキャプションや画像はないと思いますが、うまくできていますね。

(b)は、

犬を散歩するクリスマスセーターを着た赤ちゃんハリネズミのイラスト。

です。

(c)は、

「backprop」と書かれたネオンサイン。「backprop」と読むネオンサイン。バックプロップ・ネオンサイン。

です。

さすがにこんな画像は実在しないでしょうね。

しかし、うまくできています。

(d)は2つの画像を生成していて、

上とまったく同じ猫のスケッチが下にある。

というテキスト情報を与えています。

面白いですね。

当初の発想は、GPTのように、“より大きなモデルで大量のデータを学習”させれば、従来のモデルよりももっと良いモデルが作れるだろうということでしたが、想定していた以上に様々な画像を生成できたとのことです。

では、どうやってこの画像を生成しているかについて、次から解説していきたいと思います。

DALL-Eの仕組み

全体的な仕組みはVQ-VAE、もしくはその後続のVQ-VAE2で行われていたこととあまり変わりません。

VQ-VAEは、画像をインプットして、離散的な潜在変数に圧縮し、それを復元するオート・エンコーダです。

DALL-Eでは、同様にVQ-VAEを使って256x256xRGBの画像を32x32の潜在変数に圧縮します。

そして、キャプションであるテキスト情報とその32x32の画像の潜在変数をTransformerに学習させます。

DALL-EではTransformerの優位性を全面的に利用します。

Transformerは自然言語処理ではBERTやGPT-3に使われ、最近では画像分野でもVision Transformer(ViT)、DETR(Detection with Transformers)といったモデルで使われており、CNNに取って代わりそうな勢いのある仕組みです。

Transformerの重要な特徴として、Inductive Bias(モデルの仮定)が少ないことから、特に大量のデータが利用できる場合に他のモデルよりも力を発揮することが可能です。

そこで、学習データ量を増やして巨大なモデルを学習します。

GPT-3やCLIPでも見られましたが、学習データを増やして巨大なモデルを学習させることで、特定のデータセットに偏るのではなく、汎化されることがわかっています。

その考え方を踏襲して、DALL-Eでは2億5000万の画像-テキストのペアのサンプルを使って、120億のパラメータを持つTransformerモデルを学習させます。

画像の生成時には、キャプションであるテキスト情報を学習済みのTransformerに与え、32x32の潜在変数$z$を生成し、その潜在変数からVQ-VAEを使って画像を生成する(復元する)といった手順です。

では、モデルの詳細を見ていきましょう。

モデルの詳細

全体的な仕組みはTransformerというよりも、VQ-VAEと言えるのではないかと思います。

論文では、VQ-VAEと言わず“dVAE”と呼んでいます。

DALL-Eの仕組みを理解するにはVQ-VAEを理解するのが早いですので、簡単にVQ-VAEをおさらいしたいと思います。

ご存じの方は飛ばしていただいて大丈夫です。

VQ-VAEの概要

VQ-VAEは潜在変数を使ったオート・エンコーダですが、潜在変数$z$を離散的なベクトルで表現します。

上の図のオレンジの矢印で指した部分が潜在変数になります。

この潜在変数は、1や53といった数値が記載されていますが、これはEmbedding Spaceにある離散的な埋め込み表現(Code book)のうちの1番目や53番目のベクトルを使うということです。

このような仕組みでオート・エンコーダを学習させるというものです。

そして、VQ-VAEの学習時には潜在変数の事前分布$p(z)$を一様分布としているのですが、実際に画像を生成するときには一様分布ではなく、PixelCNNというモデルにVQ-VAEのエンコーダが出力する$z$の分布を学習させ、PixelCNNを使って$z$を生成し、デコーダが新しい画像を生成させるという仕組みです。

DALL-Eでは、PixelCNNの代わりにTransformerを使います。

PixelCNNについてはこちらをご参照ください。

: 【解説+実装】PixelCNNを理解する
さて、今回は画像の生成モデルの一つであるPixelCNNを解説し、最後にPyTorchで簡単に実装していきたいと思います。 PixelCNNは、まず2016年に以下の論文でPixelRNNなどとともに ...

DALL-Eの全体像

では、DALL-Eに戻りましょう。

DALL-Eの学習も同じ方法で、2つのステージから構成されます。

Stage 1
もとの256x256x3(RGB)の画像に対して、32x32に圧縮するためにVQ-VAEを学習させます(論文ではdVAE(discrete VAE)と呼んでいます)。
codebookの種類は8192とします。
Stage 2
$z$の事前分布をPixelCNNではなく、より汎用性の高いTransformerを使って学習させます。
DALL-Eでは、潜在変数は圧縮した画像$z$(ここではimage tokenと呼んでいます)と文字情報になりますので、この同時分布をTransformerで学習します。

数式で確認

では、数式でモデルを確認しましょう。

まず、インプットとなる画像を$x$、キャプションを$y$、画像の潜在変数を$z$とします。

そして、潜在変数を含めたこの3つの同時分布$p_{\theta, \psi} (x,y,z)$を考えます。

この同時分布は、以下のように潜在変数から画像が生成される部分$p_\theta$と潜在変数の分布$p_\psi(y, z)$に分解することができます。

$$p_{\theta, \psi} (x,y,z)=p_\theta(x|y, z)p_\psi(y,z)$$

そして、変分推論の考え方により、

$$\begin{align}
p_{\theta, \psi}(x,y)\ge \mathbb{E}_{z\sim q_\phi(z|x)}&(\ln p_\theta(x|y,z)- \\
&\beta D_\text{KL}\left(q_\phi(y,z|x),p_\psi(y,z)\right)
\end{align}$$

と表されます(VAEのELBを求めているだけなので雰囲気はわかるのですが、$q_\phi(z|x)$と$q_\phi(y, z|x)$が混在していたりして、きちんと導出しようとするとよくわかりませんでした、お分かりの方は教えていただければ嬉しいです。)。

つまり、左辺の対数尤度は右辺よりも必ず等しいか大きくなり、右辺は変分下界(Evidence Lower Bound; ELB)と呼ばれます。

尤度ではなく、このELBを最大化しようというのが変分推論です。

詳細はVAEの記事で解説しているので、こちらもご参照ください。

: 【Python (Tensorflow) による実装付き】Variational Auto-Encoder (VAE) を理解する
今回は、2014年に提案された画像生成モデル “Variational Auto-Encoder (VAE) ” について解説していきたいと思います。仕組みの詳細まで踏み込んでいるため、計算などが複 ...

この$\beta$はもともとの変分推論にはないパラメータですが、β-VAEというVAEの亜種で提案されたものです。

$\beta=1$のときが厳密な下界ですが、$\beta$をある程度大きくした方がうまくいくようです。

式・パラメータの解釈

さて、$\phi$、$\psi$、$\theta$というパラメータが出てきました。

$q_\phi(y,z|x)$というのは、$y, z$の同時分布の事後分布になります。

つまり、データ$x$を観測した場合の、$y,z$の分布です。

ですので、$\phi$は$x$を与えたときの事後分布のパラメータですので、オート・エンコーダの枠組みではエンコーダのパラメータということになります。

$p_\theta(x|y,z)$は、画像の潜在変数$z$が与えられたときの画像$x$の分布です。

ですので、$\theta$は潜在変数から画像を復元する際に使用するパラメータ、つまりデコーダのパラメータになります。

最後に$p_\psi$ですが、こちらは潜在変数の事前分布になります。

これはTransformerによりモデル化されます。

DALL-Eの詳細

では、Stage 1とStage 2を細かく見ていきます。

Stage 1：画像の潜在変数の学習

まずは、画像の潜在変数に学習するオート・エンコーダの部分です。

繰り返しになりますが、以下の式で表されるELBを最大化するように学習します。

$$\begin{align}
p_{\theta, \psi}(x,y)\ge \mathbb{E}_{z\sim q_\phi(z|x)}&(\ln p_\theta(x|y,z)- \\
&\beta D_\text{KL}\left(q_\phi(y,z|x),p_\psi(y,z)\right)
\end{align}$$

ここで学習するパラメータはデコーダのパラメータ$\theta$とエンコーダのパラメータ$\phi$です。

事前分布のパラメータ$\psi$は学習せず、これはStage 2で学習します。

事前分布が決まらないと下界の最大化はできないじゃないか！となりますが、事前分布はここではいったん一様分布とします。

離散的な値を取るので、すべての確率が同じであるカテゴリ分布となります。

離散的なベクトルをcodebookと呼びますが、このcodebookの種類は$K=8192$とします。

まず、256x256x3の画像をいくつかの畳み込み層で32x32x$d$次元に落とします(詳細は論文、もしくはこちらのコードをご参照ください)。

これを$z_e\in \mathbb{R}^{32\times 32\times d}$としましょう。

この$d$はcodebookの次元に合わせます。

そして、各ピクセル$z_{i,j}\in \mathbb{R}^{d}$と埋め込み空間にあるcodebookと最も距離が近いcodebookを選びます。

$$k=\arg \min_{k}\| e_k - z_{i, j}\|_2$$

そして、デコーダへのインプットは

$$z_q=e_k$$

とします。

さて、ここで学習時の問題が出てきます。

上のようにargminを取ってしまうと、微分ができないため勾配が計算できず、学習することができません。

VQ-VAEではこの問題をstraight estimatorと呼ばれる方法で回避しています。

straight estimatorは単純に損失関数$L$の$z_e$による微分を$L$の$z_q$による微分で置き換えるものです。

ようは、本来は$\partial L/ \partial z_e$を計算しないといけないのですが、$\partial L/ \partial z_q$をそのまま流してしまおうというものです。

一方で、DALL-Eではstraight estimatorは使わず、Gumbel-softmax relaxation(もしくはConcrete distribution)という手法を使います。

Gumbel-softmax relaxationを簡単に言うと、1点のみを取るargmaxを少し緩めてsoftmaxの形にしてやるというものです。

これにより、微分をすることが可能になります。

以下のようなイメージです。

「CATEGORICAL REPARAMETERIZATION
WITH GUMBEL-SOFTMAX」(https://arxiv.org/abs/1611.01144)

一番左がargmaxを取る場合の実際のカテゴリカル分布の期待値とサンプルになります。

b)のサンプルの例ではカテゴリの中から一つ選ぶので一つだけ棒が立っています。

Gumbel-softmax relaxationでは、$\tau$というパラメータを使ってこれがゼロに近いとargmaxになり、大きくすると緩まっていきます。

例えば、本来のカテゴリ分布からのサンプリングを$\tau=0.5$の場合のようなsoftmaxで近似しようというものです。

詳細は割愛しますが、$\tau$は学習当初は大きめの値に設定し、徐々に小さくして1/16にするなどの工夫を行っています。

ようは、初めはargmaxをざっくり近似して、学習が進んでいくとより実際のargmaxに近づけていくというものです。

他にも、$\beta$は段々大きくしていき、最終的には6.6になるように設定しています。

少しずつKLダイバージェンス項のペナルティを大きくしていくイメージですね。

他にも論文には細かい工夫が記載されていますので、気になる方は論文をご参照ください。

Stage 2：事前分布の学習

このStage 2では、テキスト$y$と圧縮した画像$z$の事前分布$q_\psi(y, z)$を学習します。

Stage 1でオート・エンコーダはもう学習済みですので、$\theta$、$\phi$は固定します。

$p_\psi$はパラメータが120億個のTransformerを使います。

特に、“Attention is All You Need”で提案されたTransformerに対して、より長い文章でも対応できるようにしたSparse Transformerを使用します。

Sparse Transfomerの詳細はこちらをご参照ください。

: 【論文解説】Sparse Transformerを理解する
さて、今回はOpenAIから提案された、attentionを効率化することで長い系列を取り扱うことを可能にしたSparse Transformerの論文について解説したいと思います。この仕組みはGP ...

DALL-Eでは、以下のような(a)の行に対するattentionマスク、(b)のような列に対するattentionマスク(と計算効率を良くするために変形した(c))、(d)の畳み込みattentionマスクの3種類を使います。

そして、Sparse Transformerへのインプットはテキストの文字列256語と圧縮した画像の32x32の1024個を連結したものです。

テキストのボキャブラリ数は16,384語で、画像の方のボキャブラリ数は8192語になります。

画像については、ボキャブラリ？と思うかもしれませんが、ようは離散的に表現された画像をテキストのように扱っていて、1024語がそれぞれ単語列で、それらの単語の埋め込み表現が対応するcodebookになるイメージです。

これで、画像情報についても自然言語のように扱うことが可能になりました。

インプットの長さが256+1024の1280個になり、TransformerではAttentionの計算部分で結構処理が重くなるレベルです。

ですので、Sparse Transformerを使っています。

また、attentionの仕方も工夫がされており、以下の3パターンのattentionを使っていまうす。

テキストからテキストへのattention
画像から画像へのattention
画像からテキストへのattention

最終的には、テキストから圧縮した画像をTransformerで生成するので、テキストから画像へのattentionはありあません。

なお、レイヤ数は64です。

損失関数はクロス・エントロピー誤差を使いますが、テキストと画像部分に分けて、テキストの方は1/8し、画像の方は7/8とします。

これは、最終的には画像を生成するので、テキストよりも画像の方の損失を重視するためです。

データの収集

では、巨大なデータセットの作成方法について簡単に説明します。

インターネットから収集した2億5千万のテキスト-画像ペアを使います。

ただし、インターネットから画像を収集することはできますが、キャプションがありません。

そこで、GoogleのConceptual Captionsを参考にキャプションを作成します。

まずConceptual Captionsの前処理は以下のようなものです。

画像とHTMLのAlt-Textを使って判定します。

1段目は、画像の判定で、サイズやファイルフォーマット(JPEGのみを使う)によってフィルタリングされています。

DALL-Eのデータセットにおいても、アスペクト比が$[1/2, 2]$に入っていないものは除いています。

2段目は、テキストの判定で、Alt-Textが短いため除かれています。

DALL-Eでも英語でないものは除いています。

3段目は、テキストと画像の判定で、画像とテキストの意味が重なっていないので除かれています。

これらのフィルタリングを経て、最終的に残ったのが4段目の画像になります。

DALL-Eにおいてもこのようなフィルタリングを行い、最終的に2億5000万個のサンプルが出来ています。

このデータセットはConceptual Captionsのデータを含んでおり、YFCC100Mというデータセットの一部を含んでいます。

サンプル画像の生成

サンプル画像の生成自体は、テキストをインプットとして、Transformerで32x32の画像の潜在変数を生成し、dVAEで最終的な画像を生成することが可能です。

DALL-Eではさらに、そこから画像とテキストのモデルである「CLIP」を使って、1つのテキストについて生成された複数の画像を、ランキングし、上位の画像を出力するという方法を使います。

CLIPについては、こちらをご参照ください。

: 【論文解説】自然言語処理と画像処理の融合 - OpenAI 『CLIP』を理解する
今回はOpenAIの『CLIP(Contrastive Language-Image Pre-training)』を解説したいと思います。 CLIPは画像の分類に利用されるモデルですが、今までのモデル ...