近年、AIによる画像生成(AI画像生成)は著しい進歩を遂げ、研究者・エンジニアのみならず一般にも大きな注目を集めています。テキストから高精細な画像を自動生成できるモデルの登場により、創造性支援やデザイン、自動コンテンツ生成といった幅広い応用が現実のものとなりました。特に拡散モデル(Diffusion Model)の台頭以降、生成される画像の品質は飛躍的に向上し、そのリアリティは人間が作成したものと見分けがつかないほどです。本稿では、AI画像生成技術の基礎である GAN・拡散モデル・Transformer といったアルゴリズムの仕組みや、それらの発展の歴史、性能向上のための工夫、代表的なモデル/ツール(Stable DiffusionやMidjourney、DALL·Eなど)の技術的特徴、使用データセットとその影響、評価指標について学術的観点から詳しく解説します。

AI画像生成の基礎技術(GAN・拡散モデル・Transformer)

AIによる画像生成を実現する主要なディープラーニング技術として、GAN(敵対的生成ネットワーク)、拡散モデル、Transformer型の生成モデルの3つが挙げられます。それぞれアプローチは異なりますが、真のデータ分布から新規サンプル(画像)を生成することを目的としています。まずは各手法の仕組みと特徴を概観します。

GAN(敵対的生成ネットワーク)の仕組み

GAN (Generative Adversarial Network) は Ian Goodfellow 博士らによって2014年に提案された枠組みで、2つのネットワークが競合(敵対的訓練)することでデータから学習した分布に従う新しいデータを生成します。一方の生成器 (Generator) がランダムノイズから画像を作り出し、もう一方の識別器 (Discriminator) がそれが本物の訓練画像か偽物(生成画像)かを見分けます。学習では生成器が識別器をだますように偽画像のクオリティを高め、識別器は偽物を見破れるよう性能を上げていきます。両者のミニマックスゲームによる最適化の結果、生成器が本物そっくりの画像を生み出すことを目指します。

GANの利点は一度の推論で高品質な画像を高速に生成できる点です。対戦により得られるフィードバックを通じ、画像の細部まで鮮明な高解像度サンプルを作れることが知られています。実際、従来のVAE(変分オートエンコーダ)で生成した画像がぼやけがちだったのに対し、GANは鮮明で写実的な画像を生成できることが示されました。例えば、2014年の論文発表当初のGANは手書き数字など低解像度画像での実験でしたが、その後の改良により写真顔画像(CelebAデータセット)や物体画像(ImageNet)でも極めてリアルな画像生成に成功しています。

しかしGANには課題も存在します。代表的な問題が「モード崩壊 (mode collapse)」で、生成器が訓練データの一部のモード(パターン)のみを出力し多様性が失われる現象です。また、生成器と識別器の訓練バランスの調整が難しく、訓練が不安定になりやすい点も指摘されています。実際、高品質な画像を得るためには膨大な試行錯誤(学習率やアーキテクチャの工夫)が必要で、他の手法と比べ学習が難しいと言われます。

拡散モデルの仕組み

拡散モデル (Diffusion Model) は近年急速に発展した生成モデルで、徐々にデータにノイズを加えていく過程と、そのノイズを除去してデータを復元する過程によって画像を生成します。訓練時は、入力画像に少しずつガウスノイズを加えていき、最終的に純粋なノイズに到達する「順方向プロセス」を構成します。そしてこの逆として、ノイズから元の画像を段階的に再構成する「逆方向プロセス」をモデルが学習します。すなわち、完全なランダムノイズから一歩一歩ノイズを取り除きながら画像を生成していくというアプローチです。

このプロセスはマルコフ連鎖に基づく多段階の生成過程であり、各ステップで少しずつ画像を洗練していく点が特徴です。DDPM (Denoising Diffusion Probabilistic Model)と呼ばれる手法がその代表例で、2020年にHoらの論文で初めて高品質な画像生成に成功しました。拡散モデルはGANと比べ訓練が安定しやすい利点があり、複雑な損失関数の工夫や対戦訓練を必要とせずMSE(二乗誤差)に基づく単純な訓練で画像生成モデルを学習できます。その結果、極めて多様で忠実度の高い画像を生成でき、現在ではテキスト条件付き画像生成の最有力手法となっています。

拡散モデルのデメリットは生成に時間がかかる点です。高品質な画像を得るには通常50〜200ステップもの反復ノイズ除去が必要で、GANのように一度の推論で出力できないため推論計算コストが大きいです。しかし近年、この欠点を緩和するためにステップ数を削減する研究も進んでいます(後述)。全体として、拡散モデルは「高品質・多様性」という点で非常に優れた結果を示しており、実画像と見分けがつかないような精細な合成画像も生成可能です。

Transformerを用いた生成モデルの仕組み

3つ目のアプローチはTransformer型の生成モデルです。Transformerは本来、自然言語処理で発展した自己注意機構を持つモデルですが、画像生成にも応用されています。具体的にはオートレグレッシブ(自己回帰)モデルとして、画像を離散的なトークン列(例えば画像を小さなパッチやコードブックに量子化した列)に変換し、それをテキスト条件のもとで一列の系列データとして予測生成します。OpenAIが2021年に発表したDALL·E(第1世代)は、この手法でテキストから256×256の画像を生成しました。具体的には、画像を事前学習したVAEでトークン化(例えば離散VAEによるコード化)し、テキストトークンと画像トークンをまとめて巨大なTransformerに学習させることで、与えられたテキストから順次対応する画像トークン列を出力する仕組みです。

Transformer型モデルの強みは、大規模データ・大規模モデルによる表現力です。数十億パラメータ規模のモデルにインターネットから収集した数億対の画像データを学習させることで、高度に多様で現実的な画像生成が可能になります。例えばDALL·E(初代)は約12億パラメータでしたが、後継のParti(Google, 2022年)は画像トークン生成に約20億超のパラメータを持つTransformerを用い、極めて高精細な画像を生成しています。またTransformerは自己回帰的に画像を生成するため一度に一部ずつ描画するように画像を構築でき、これにより複雑なグローバルな構造を保持しやすいという利点もあります。実際、ある研究では「Transformer型モデルは拡散モデルに匹敵するリアリティの高い画像を生成可能」と報告されています。

一方でTransformer型の欠点は、モデル規模と推論速度です。高品質な生成には巨大全結合ネットワークが必要な場合が多く、そのパラメータ数は5億〜50億以上にも達しがちで、学習・推論ともに計算資源を大量に要します。また画像トークンを逐次(non-parallel)に予測するため、一枚の画像を得るのに何百ステップもの推論が必要となりがちで、リアルタイム生成には不向きです。このため、実用上はTransformer単体よりも、後述するようにTransformer+他の手法を組み合わせたハイブリッド(例: テキストエンコーダにTransformer、画像生成自体は拡散モデル など)の形で使われることが多くなっています。

技術の変遷:画像生成モデルの進化のマイルストーン

AI画像生成技術はこの10年で飛躍的に発展してきました。以下に、主要なアルゴリズムやモデルの歴史的なマイルストーンを時系列でまとめます。

  • 2014年: Ian GoodfellowらがGAN (Generative Adversarial Network) を提案。ニューラルネットによる本格的な画像生成モデルの幕開けとなりました。低解像度ながら手書き数字や顔画像の生成に成功し、敵対的訓練による生成の概念を確立。
  • 2015年: Alec RadfordらがDCGAN (Deep Convolutional GAN) を発表。畳み込みニューラルネットをGANの生成器と識別器に導入し、安定訓練と高解像度画像生成の基盤を築きました。
  • 2016年: OpenAIの研究によりPixelRNN/PixelCNNが登場(Oordら)。これは画像を画素ごとに順番に生成する自己回帰モデルで、GANとは異なるアプローチとして注目されました。
  • 2017年: GANの訓練安定化技術としてWGAN (Wasserstein GAN)やWGAN-GP(Gradient Penalty付き)が登場。識別器の損失関数にEarth Mover距離を用いモード崩壊が軽減されるなど、GANの性能向上に寄与しました。
  • 2018年: Tero KarrasらがProgressive GANを提案。低解像度から徐々に解像度を上げて学習する手法で、高解像度(1024×1024)の顔画像生成に初めて成功しました。また同年、自己注意機構を導入したSelf-Attention GAN (SAGAN) や、大規模データセット(ImageNet)でクラス条件付きに高品質画像を出力したBigGANも登場し、GAN研究が最盛期を迎えます。
  • 2019年: KarrasらによりStyleGANが発表されました。スタイル変調による新たなアーキテクチャで、人の顔画像生成で画期的な品質を達成しています。以降StyleGAN2(2020年改善版)へと発展し、GANは写真レベルの解像度と精細さを実現しました。
  • 2020年: 拡散モデルの基礎論文が相次いで発表されます。Hoらの「DDPM: Denoising Diffusion Probabilistic Models」では、拡散モデルが小規模画像(CIFAR-10など)で当時最先端だったGANに匹敵する性能(Inception Score 9.46、FID 3.17)を記録しました。Songらも同時期にScore-Based Generative Modelを提案し、拡散過程とスコア関数(確率密度勾配推定)の関係を理論的に整理。VQ-VAE-2(Razaviら)も登場し、VAEで画像を離散コード化してPixelCNNで生成する手法が開拓されました。
  • 2021年: DALL·E (初代) がOpenAIから発表されました。250M件の画像キャプション対から学習した120億パラメータのTransformerにより、テキストから多彩な画像をゼロショット生成できることを示しました。この成果は「巨大なデータセット+大規模モデル」による汎用画像生成の可能性を示す転換点となりました。また、OpenAIは同年末にGLIDEというテキスト条件付き拡散モデルを公開し、拡散モデルがテキスト→画像生成に極めて有効であることを証明しました。さらには、オープンソース界隈でVQ-GAN + CLIPを用いた画像生成(いわゆるCLIP-guided generative art)が流行し、一般ユーザーにもAIアートが浸透し始めます。
  • 2022年: 拡散モデル全盛の年です。4月にOpenAIがDALL·E 2を発表し、CLIPを用いた2段階モデル(テキスト→画像埋め込みのPrior + 埋め込み→画像生成のDecoder)で従来を凌駕する高画質・高解像度な画像生成を実現しました。5月にはGoogleがImagenを発表し、巨大言語モデルT5で得たテキストエンコードを拡散モデルで画像化する手法でフォトリアリスティックな成果を報告。7月には同じくGoogleからPartiが公開され、純Transformer型でもスケール次第で高品質生成可能なことを示しました。さらに8月、Stability AIらがStable Diffusionをオープンソース公開し、一般ユーザーが手元のGPUでも高度な画像生成を行えるようになりました。同時期にサービス型のMidjourneyやNovelAIも人気を博し、誰もがテキストから画像を得られる時代が到来しました。
  • 2023年: 生成モデルの改良と応用が進みました。Stable Diffusionの大規模版SDXLが登場し、更なる画質向上と高解像度化(1024×1024)が図られました。Midjourneyも独自モデルをV5まで進化させ、よりフォトリアルで芸術性の高い画像を生成できるようになりました。9月にはOpenAIがDALL·E 3を発表し、ChatGPTと統合する形でユーザーが対話的に画像生成を行えるようにするなど、利便性と生成精度の両立が図られています。また、生成モデルの制御技術として、既存画像の構図やポーズを条件に加えるControlNetや、少数の画像から特定のキャラクター/スタイルを学習させるDreamBoothなども登場し、画像生成の自由度は一段と広がっています。

このように、AI画像生成の技術はGANの登場から始まり、様々な改良と新手法を経て、現在は拡散モデルを中心に飛躍的な発展を遂げています。それぞれの技術には強みと弱みがあり、一概にどれが優れるとは言えませんが、近年は大規模モデル+拡散モデルの組み合わせが高性能かつ扱いやすいことから研究・応用の主流となっています。一方でGANも大規模化や手法の洗練によって再び性能向上が報告されており、Transformerも非自己回帰型の導入などで高速化の模索が進んでいます。今後もそれぞれのアプローチで相互に影響を与えつつ、生成モデルはさらに進化していくでしょう。

精度向上のためのアプローチ:学習手法・データ拡張・正則化など

画像生成モデルの性能(生成画像の画質・多様性・忠実度)を高めるために、研究者たちは様々な学習手法上の工夫やデータ拡張、正則化手法を開発してきました。ここでは代表的なアプローチをいくつか紹介します。

損失関数と安定化手法の改良(GAN向け)

GANの学習安定性と品質向上のため、多くの損失関数・最適化の改良が提案されました。例としてWasserstein GAN (WGAN)では確率分布間距離にワッサースタイン距離を用いることで勾配消失を緩和し、より安定した訓練が可能となりました。またWGAN-GPでは勾配ペナルティ項を導入してLipchitz制約を緩やかに満たし、モード崩壊が軽減されています。他にも、相対的判別損失やヒンジ損失への変更、ミニバッチ標本間の多様性正則化(ミニバッチディスクリミネータ)、識別器のスペクトル正規化(判別器の重みの特異値制限による安定化)など、多数のテクニックが考案されています。学習率を生成器と識別器で別々に調整する二重学習率(TTUR)も提案され、DCGANやWGAN-GPで従来より良い収束を示しました。

データ拡張(Augmentation)の活用

DiffAugmentに代表されるように、訓練データが少ない場合でもGANを高性能に訓練するため差分可能なデータ拡張が有効であると示されました。これは偽物画像と本物画像の双方に同じランダムな画像変換(色変換やジオメトリ変換など)を適用し、識別器が変換不変な本物/偽物の判定を学ぶよう仕向ける方法です。この手法により、データ20%でも完全データ時と同等のFID・ISを達成するなどデータ効率が飛躍的に向上しました。また拡散モデルの場合でも、学習時に入力画像に種々のデータ拡張を行うことでロバスト性が増し品質向上につながる報告があります。

大規模化(モデルとデータのスケーリング)

モデルサイズと学習データ数を増やすことは、生成モデル性能向上の最も有力なアプローチの一つです。パラメータ数を増やしモデルキャパシティを上げることで、より複雑なデータ分布を捉えられるようになります。ただしGANでは極端な大規模化は安定な学習の妨げになる場合もありましたが、近年はBigGANのように数億パラメータでも適切に訓練する手法が確立しています。拡散モデルやTransformerは特にスケール効果が顕著で、DALL·E 2やImagenなどは数億〜数十億のパラメータと数億件規模の画像データで飛躍的性能を示しました。大規模化による副次効果として、事前学習済みモデルの転用(例: 大規模CLIPモデルで画像テキスト対応を学習し生成をガイド)も性能向上に寄与しています。

ネットワークアーキテクチャの改良

生成ネットワーク自体の構造工夫も重要です。GANではProgressive Growingによる段階的解像度up、StyleGANで導入されたスタイルベクトルによるAdaIN正規化と雑音注入、さらにStyleGAN2での重みデモジュレーションやパス長正則化などが画質向上に大きく貢献しました。拡散モデルでも、単純なU-Net構造に加えてマルチヘッド注意 (Transformerブロック)の組み込みによりグローバルな画像文脈を捉えやすくし品質を上げています。また本文条件を与える際に、単純な条件付与(条件を入力に連結)よりクロスアテンション機構を用いる方が効果的であると報告され、Stable Diffusionなど多くのモデルがテキスト条件付与にクロスアテンションを採用しています。Transformer型モデルでもスパース・マスク付き注意や並列デコーダの模索が行われており、全体としてモデル内部構造の改良が品質向上を支えています。

サンプリング手法と高速化

拡散モデルにおいて特に、高速なサンプリングアルゴリズムの開発が重要です。拡散プロセスの時間ステップを削減するDDIM (Denoising Diffusion Implicit Models) や、確率微分方程式の数値解法を改良したDPM-Solver、および最適輸送的なサンプリングなどにより、本来50〜100ステップ必要な生成を10ステップ程度に短縮しても画質劣化を抑えられることが示されています。またGuidance手法の活用も品質向上に寄与しています。特にClassifier-Free Guidanceでは、学習時に一定確率でテキスト条件を空にしてモデルを訓練することで、推論時にテキスト条件あり/なしの予測を補間して強力な条件付け効果を得られます。Stable Diffusionの学習でも10%の確率でテキストをドロップアウトすることでこの手法を取り入れており、生成画像のテキスト忠実度を劇的に向上させました。

正則化と評価指標によるチューニング

モデルが過学習したり多様性を失ったりしないよう、様々な正則化が試みられています。例えばGANではミニバッチ正則化(バッチ内の統計を特徴に入れる)で多様性を確保したり、経験的分布の距離(FIDなど指標そのもの)を損失に組み込むアプローチも検討されています。また生成モデルの評価指標(次章参照)をモニタリングしながらハイパーパラメータを調整することで、より良いトレードオフ(鮮明さと多様性など)を達成する工夫も行われています。

以上のような様々な取り組みにより、現在の生成モデルは一昔前に比べ桁違いに高性能化しました。特に拡散モデル+大規模学習という組み合わせは、多くの改良手法の恩恵を受けつつ、これまでのGAN/VAEの弱点を克服したと言えます。もっとも、用途によって求められる指標(写真のようなリアリティか、斬新な多様性か)は異なりますので、上述のテクニックを適切に選択・組み合わせることが重要です。

現在の代表的な画像生成モデルとその技術的特徴

ここでは、2023年現在特に注目される代表的な画像生成モデル/サービスである Stable Diffusion, Midjourney, DALL·E 2 の3つを取り上げ、それぞれに使われている技術と特徴的な工夫について解説します。

Stable Diffusion(安定拡散モデル)

Stable Diffusion は2022年に公開されたオープンソースの画像生成モデルで、現在もっとも広く利用されているテキスト画像生成AIの一つです。その核となる技術は拡散モデルの一種である「潜在拡散モデル (Latent Diffusion Model, LDM)」です。これは、直接ピクセル空間で拡散モデルを適用する代わりに、まず画像を低次元の「潜在空間」に圧縮するVAEを用意し、その潜在表現上で拡散モデルによる生成を行う手法です。このアイデアにより、計算コストを大幅に削減しつつ高い画質を維持することに成功しました。実際、ピクセル空間で拡散モデルを訓練・生成しようとすると巨額のGPU計算が必要でしたが、LDMではオートエンコーダで画像次元を1/8程度に圧縮することで、限られた計算資源でも高解像度画像の生成を可能にしています。

Stable Diffusionの具体的アーキテクチャは、U-Netベースの拡散モデル(UNet: 860Mパラメータ)にテキスト条件を与えるためのクロスアテンション層を組み込んだ構造になっています。テキストのエンコードには、OpenAIが提供した事前学習済みのCLIP (ViT-L/14)テキストエンコーダを凍結利用しており、テキストプロンプトをベクトル化してU-Netに与える形です。モデル全体のサイズはU-Net約8億パラメータ、テキストエンコーダ1億強で、合計約10億パラメータと比較的軽量に抑えられています。このおかげでVRAM 10GB程度(一般的なゲーミングGPUでも搭載)で動作可能な点が、Stable Diffusionの普及に大きく貢献しました。

Stable Diffusionの学習には、LAION-5Bと呼ばれる大規模画像データベースから抽出した約数億枚の画像テキスト対が用いられています。具体的には、解像度512px以上の画像1.7億枚を含むサブセット(LAION-HighRes)でまず256px画像への事前学習を行い、その後LAION-Aestheticsと呼ばれる美学スコアでフィルタしたデータで512pxへのファインチューニングが施されています。このように高品質なデータのみを選別する工夫により、アート的に魅力的でノイズの少ない画像生成が実現されています。また前述のClassifier-Free Guidanceのためにテキスト無し条件でも学習しており、プロンプトに対する忠実性を必要に応じ強められるようになっています。

Stable Diffusionはオープンライセンスでモデル重みが公開されており、ユーザーコミュニティによるモデルの微調整や派生モデルの作成が非常に盛んです。その結果、特定の画風に特化したモデルや二次元イラストに強いモデル、写真風モデルなど様々なバリエーションが生まれています。一方で、訓練データ由来のバイアスや不適切な内容生成の問題も指摘されています。開発元はモデルカードで「本モデルはトレーニングデータのバイアスや誤った概念をそのまま反映してしまう」可能性に言及しており、安全で倫理的な利用には注意が必要だとしています。実際、Stable Diffusionは有害な画像や著名人の肖像なども生成できてしまうため、公開時にはNSFWフィルタ等も実装されました。こうした課題はあるものの、Stable Diffusionはオープンソースならではの発展を遂げ、拡散モデルの事実上の標準プラットフォームとなっています。

Midjourney(ミッドジャーニー)

Midjourney は2022年にサービスが開始された、テキストから芸術的な画像を生成できるオンラインプラットフォームです。Discord上のボットを介して誰でも高品質な画像生成を試せることから人気を博し、商用利用するユーザーも多いサービスとなっています。Midjourneyの内部技術詳細は公表されていませんが、Diffusionモデル系のアプローチを採用していると推測されています。おそらくStable Diffusionと同様にテキスト埋め込みを条件とするU-Net型拡散モデルをベースに、大規模データでの追加訓練や独自のfine-tuningが施されているものと思われます。

Midjourneyの大きな特徴は、アート志向のスタイルと高い初期クオリティです。プロンプトに対し、写真写実というよりは芸術作品のような美しい構図・配色の画像を生成する傾向があり、多くのユーザーが「ワンクリックで素晴らしいアートが得られる」と評価しています。これは訓練データに著名なアート作品やイラストレーションが多く含まれている可能性や、モデル自体に芸術的表現を好む調整がされているためと考えられます。実際、Midjourney開発チームは「我々のAIはアートに特化している」と公言しており、写真の正確さよりもクリエイティブなスタイルや雰囲気を重視しているようです。

技術面では、MidjourneyもStable Diffusion同様にLAIONなどウェブ上の大規模画像テキストデータで訓練されたとみられます。公開情報では「インターネット上の数百万の画像と対応テキストから学習した」とされています。つまり、オープンソースのStable Diffusionをベースに、さらに独自データやチューニングで絵画的スタイルを強化したモデルである可能性があります。Midjourneyはバージョンを重ねており、V4で大幅な画質向上、V5でよりフォトリアルな表現力を獲得しています。モデルサイズは非公開ですが、おそらく数十億パラメータ級に増強されているでしょう。それにも関わらずクラウド上で高速生成が可能なのは、モデルの効率的実装や高性能なGPUインフラ、そして独自の最適化(例えばモデル圧縮や量子化)によるところも大きいと考えられます。

Midjourneyの成果は圧倒的ですが、いくつかの制約や課題もあります。例えば文字の生成が不得意で、画像内のテキストは判読不能な文字列になることが多いです(これはStable Diffusion系モデル全般の弱点で、訓練データ中の文字が無秩序なためと推測されます)。また、複数の人物が登場する場面で一貫した顔を保つのが難しく、キャラクターの同一性・連続性に弱点があります。これについて開発者も「現状、シーン内のキャラクターの一貫性に課題がある」と述べています。さらに、サービス運営上の方針で過度に暴力的またはアダルトな内容の生成は禁止されており、該当プロンプトはフィルタされています。技術そのものではありませんが、AI画像生成が社会に与える影響に配慮した運用がなされています。

総じて、Midjourneyは「使いやすさと芸術性」でAI画像生成を一般に広めた立役者と言えます。クローズドソースながら、その品質の高さはコミュニティでも認められており、多くのクリエイターが作品制作に取り入れています。学術的にも「大規模拡散モデルの実用展開」の好例として注目すべき存在です。

DALL·E 2(およびDALL·E 3)

DALL·E 2 はOpenAIが2022年4月に発表したテキスト入力からの画像生成モデルです。初代DALL·EがTransformerによるオートレグレッシブ生成だったのに対し、DALL·E 2では拡張現実世界でのCLIPモデルを活用した2段階方式(通称「unCLIP」)が採用されています。具体的には、まずテキストからCLIPの画像埋め込みベクトルを生成するPriorモデルを用意し、次にその画像埋め込みから実際の画像を生成するDecoderモデル(拡散モデル)を訓練する構成です。このように画像の中間表現(CLIP埋め込み)を明示的に生成させることで、画像の多様性が向上しつつテキストとの整合性も保たれることが示されています。実際、OpenAIの研究では「画像表現を明示的に生成することにより、フォトリアリズムをほぼ損なうことなく画像の多様性が改善された」と報告されています。

DALL·E 2のDecoderは拡散モデルベースであり、クラス条件付き拡散モデルGLIDEの発展形といえます。CLIPで得た画像埋め込みを条件に、ノイズから画像を逐次生成するもので、256×256pxの画像をまず出力し、その後2段階のアップサンプラ拡散モデルで最終1024×1024pxまで高解像度化します。CLIP埋め込みを条件に使うことで、テキスト記述と画像内容の整合性(例えば「赤いバナナ」と指示すれば赤みを帯びたバナナが出る)が飛躍的に高まりました。CLIPの共同埋め込み空間を利用するこの方法は他にも画像のバリエーション生成(ある画像と似た別シーンを作る)や画像編集への応用が効き、DALL·E 2は単なる生成だけでなくインペインティング(穴埋め)や画像類似検索的な操作も可能になっています。

学習データに関して、DALL·E 2は独自に収集・フィルタリングした数億規模の画像テキストペアを使用したとされています(詳細なソースは非公開ですが、OpenAIは暴力・成人向け・政治的な画像を除外したと述べています)。モデル規模は、Priorが約3億パラメータの拡散モデル、Decoder(画像生成拡散モデル)が約35億パラメータと推定されており、大規模ではあるものの初代DALL·Eの120億Transformerよりは小型化されています。この背景には、CLIPの強力な表現能力によって必要なモデル容量が減ったこと、及びDiffusionモデルのサンプル効率の良さがあるでしょう。

2023年には、OpenAIはDALL·E 3を発表しました。DALL·E 3ではテキスト解釈能力をさらに向上させ、ChatGPTと統合することでユーザーが複雑な要求を対話的に指定可能になりました。技術詳細は未公表ですが、論文によれば「より質の高いキャプションで訓練しなおす」ことでモデルがプロンプトのニュアンスを細部まで反映できるようになったとしています。例えばDALL·E 2では難しかった文字列の正確な描写や、複数物体の配置関係の理解などが改善されたとのことです。評価ではCLIPスコアなどテキスト画像類似性指標で他モデルを上回り、人間評価でもMidjourney v5やStable Diffusion XLより好まれる結果が報告されています。

DALL·EシリーズはクローズドなAPI提供のみですが、その技術インパクトは非常に大きく、画像生成AIの可能性を世に示した存在です。特にDALL·E 2の登場以降、拡散モデル+CLIPという手法がほぼデファクトスタンダードになりました。研究的にも「大規模マルチモーダル埋め込み+生成モデル」の有効性を示した意義は大きく、以降のImagenやStable Diffusionにもそのコンセプトが取り入れられています。

データセットと生成モデルへの影響

どのようなデータで学習したかは、生成モデルの振る舞いや得意分野を大きく左右します。画像生成モデルに使われる主なデータセットと、その影響について解説します。

LAION

近年の大規模生成モデルの多くが利用しているのが、LAION (Large-scale AI Open Network) データベースです。LAIONはWeb上から公開画像とその周辺テキスト(altテキストなど)を集めた数十億件規模のオープンデータセットで、Stable DiffusionやMidjourneyもこのデータをもとに学習しています。長所は圧倒的な量と多様性で、インターネット上のあらゆるビジュアル様式(写真、絵画、3DCG、イラスト等)を網羅できる点です。そのおかげで生成モデルは非常に幅広い知識・スタイルを学習できます。しかし短所として、無作為に近いスクレイピングデータゆえに品質にばらつきや偏りがあります。ぼやけた画像や誤ったキャプション、有害・不適切な画像も含まれるため、そのまま学習するとモデルにもそれが反映されてしまいます。実際、Stable Diffusion v1はLAIONからNSFW画像も学習してしまったために露骨な画像も生成可能となり、公開後に安全性が問題視されました。これを受け、LAIONデータからヌード等を除外したLAION-5B (NSFW除去版) や、美的品質でフィルタしたLAION-Aestheticsが作られ、Stable Diffusion v2以降ではそれらが活用されています。

COCO

MS COCOは12万枚の画像に5つずつキャプションが付いたデータセットで、テキスト画像生成の評価用ベンチマークとして長く使われてきました。スケールは小さいですが、日常物体が多岐に渡り含まれるため、2010年代後半のAttnGANやDM-GANといった研究ではまずCOCOでFIDやInception Scoreを測定していました。ただし現在のモデルにとってCOCOは簡単すぎ、高性能モデルでは軒並みFID接近0まで達するため評価指標としての意味合いが薄れつつあります。またCOCOで学習すると現実の写真には強いものの、アニメ風や芸術画風の出力は苦手になります。したがって昨今は数千万以上の多様な画像テキストデータを使うのが一般的で、COCO単独でモデルを学習させることは少なくなりました。

学習データのバイアス

データセットの内容はモデルにそのまま投影されます。例えば、インターネット由来のデータには特定の偏見(ステレオタイプ)が含まれることがあります。ある研究では、生成モデルに「CEO」や「看護師」と入力すると、人種や性別のステレオタイプに沿った人物像を出力しやすい傾向が確認されています。これは訓練データ中の「CEO」の写真が主に男性である等の偏りによるものです。同様に、美的基準もデータ依存で、LAION-Aestheticsで学習したモデルは芸術性の高い画像を好んで生成する傾向があります。これらのバイアス問題に対し、生成モデルの公平性・多様性を確保する研究も活発化しています。学習データをリバランス(例えば人物属性の多様な画像を追加学習)したり、出力側でデトキシフィケーション(有害表現を抑制)する試みが行われています。

著作権とデータ

ウェブ由来データには著作権作品も多数含まれるため、モデルがそれらの固有スタイルを模倣してしまう問題も議論になっています。Stable Diffusionが特定アーティストの作風を極めて忠実に再現できることから、美術コミュニティで論争が起きました。これは訓練データ内にその画家の作品画像が大量にあったためです。現在、この問題に対処するため、アーティスト名を含むデータを除外したモデルや、学習時に著作権フラグを付与して後でフィルタリングする試みなどがなされています。

テキストデータ品質

画像につく説明文(キャプション)の質も重要です。LAIONのように自動収集されたキャプションは不正確なものも多く、「画像中のテキストそのもの」や「無関係なSEO用語列」だったりします。モデルはそれらも学習してしまうため、ときに意味不明な文字列を画像内に書き込んだりします(いわゆる「呪文めいた文字」問題です)。これを改善するには、OpenAIがDALL·E 3で試みたように高品質な記述文で再学習するのが有効です。またGoogleのImagenでは言語モデルを使って画像内容の詳細な擬似キャプションを生成し学習に用いたとされています。テキストデータの質を上げることも、モデルの理解力と生成精度を高める鍵と言えます。

以上のように、データセットの構成・規模・品質は生成AIの成果を左右します。現在主流の手法は「インターネット大規模データをなるべくフィルタして使う」方針ですが、将来的には権利やバイアスに配慮したキュレーション済みの大規模データセット作りが重要になるでしょう。データ面の工夫は地味ながらモデル性能・信頼性を底支えする要素です。

画像生成モデルの評価指標(FID, IS, CLIPスコア など)

生成モデルの性能を評価するには、定量的指標と定性的評価の双方が用いられます。ここでは代表的な定量指標である FID, IS, CLIPスコア を紹介し、それぞれが何を測っているのかを説明します。

Inception Score (IS)

生成画像の「鮮明さ」と「多様性」を評価するための初期の指標です。事前学習済みの画像分類モデル(通常Inception-V3)を生成画像に適用し、出力されるクラス確率分布を利用します。直感的には、「各生成画像について、分類器が特定のクラスを自信を持って予測すること」(=画像がはっきりした内容を持つこと)と「生成画像全体で見たとき、予測クラスが均等に散らばること」(=様々な種類の画像が生成されていること)の2点を満たすほどISスコアが高くなります。ISはGANの評価によく用いられましたが、欠点として「真のデータとの比較を行わない」点があります。極端な例では、生成画像が一種類の鮮明な犬の写真ばかりでもISは高くなってしまいます。このため、現在ではISはあまり使われず、次に述べるFIDの方が主流です。

Fréchet Inception Distance (FID)

2017年に登場した事実上の標準評価指標です。FIDは生成画像の分布が訓練データ(実画像)の分布にどれだけ近いかを測ります。具体的には、Inception-V3の最終層手前(2048次元特徴ベクトル)の空間で、生成画像集合と実画像集合それぞれの特徴分布をガウス分布近似し、そのFréchet距離(2つの多変量ガウス分布間の距離)を計算します。値が小さいほど両分布が近く、モデルが実データ分布を再現できていることを意味します。FIDはInception Scoreの欠点を補っており、「生成画像がリアル画像にどれほど似ているか」を定量化できる指標として定着しました。提唱論文でも「FIDはInception Scoreよりも実画像との類似性を適切に捉える」と述べられています。現在では、生成モデルの改良論文はほぼ必ずFIDを報告します。ただしFIDにも注意点はあり、計算に用いる実画像セットの選び方で値が変動します(例えば訓練データ全体 vs テストデータ vs サブセットなど)。また生成枚数が少ないと推定誤差が大きくなります。それでも人間の知覚評価と相関が高いとされ、GANや拡散モデルの評価には欠かせない指標です。

CLIP Score(CLIP-S)

テキスト条件付き画像生成の評価によく使われる指標です。OpenAIのCLIPモデル(画像とテキストを同一ベクトル空間にマッピングするモデル)を用いて、生成画像と入力テキストの類似度を測ります。計算方法は、生成画像をCLIPの画像エンコーダに通し得られたベクトルと、テキストをCLIPテキストエンコーダに通したベクトルとのコサイン類似度を取るだけです。値が高いほど画像内容がテキスト内容に合致していることを示します。CLIP Scoreはリファレンス不要で使える手軽な評価であり、近年のテキストto画像モデルの比較に頻用されています。Hesselらの研究では、CLIP Scoreは画像キャプション評価において人間評価との相関が非常に高いことが報告されています。つまりテキストと画像の整合性を測る指標として有効であるということです。ただしCLIP ScoreはあくまでCLIPモデルの持つバイアスに影響される点には注意が必要です(例えばCLIPが苦手な細かな属性はスコアに反映されにくい)。それでもDALL·E 2以降の研究では、人間評価に加えCLIP Scoreでの比較が行われるのが一般的です。なおCLIP Scoreのバリエーションとして、生成画像に対する説明文を別途生成しそれと入力テキストを比較するBLEUやROUGE的な指標も試みられましたが、やはりCLIPのように画像内容を直接埋め込む方が強力だと考えられています。

以上の他にも、Precision-Recallに基づく多様性指標(仮想的に生成分布と実分布の重なり具合を評価)、Kid (Kernel Inception Distance) といったFIDの派生、ユーザーアンケートによる主観評価などが用いられます。特に最終的な判断には人間の目で比較する定性的評価が欠かせません。実務応用では、特定のタスクにおける有用性(例えば広告デザインでの好感度)なども重要です。総じて、FIDで実物らしさを確認し、CLIP Scoreでテキスト合致度を見て、必要に応じ人手評価で細部を詰めるというのが現在の評価の流れです。それぞれの指標には限界もあるため、複数の観点からモデルを評価することが推奨されます。

おわりに

本稿では、AI画像生成技術の仕組みから最新動向まで、学術的観点を交えて包括的に解説しました。GAN、拡散モデル、Transformerという基盤アルゴリズムはそれぞれ長所短所を持ちながら進化を遂げ、特に近年は拡散モデルが高品質な画像生成の主役となりました。技術の発展史を振り返ると、2014年のGAN誕生から始まり、様々な改良手法や大規模化によって、モデルの表現力と生成画質が飛躍的に向上してきたことが分かります。現在主流のStable DiffusionやMidjourney、DALL·E 2といったモデルは、これまでの研究知見を集大成しつつ、それぞれ独自の工夫で性能を極限まで高めたものです。

一方で、データセットの持つバイアスや著作権問題、モデルが内包する倫理的・社会的課題にも触れました。優れた生成AIを作るには巨大なデータが必要ですが、そのデータの質と影響を見極め、適切に対処していくことが重要です。また評価指標についても、FIDやCLIPスコアといった定量評価と人間による定性評価を組み合わせることで、モデルの実力や問題点を多面的に捉える必要があります。

AI画像生成は今なお盛んに研究が続くホットトピックであり、新たな手法や応用が次々に生み出されています。近い将来には、テキスト→画像に留まらず動画生成や3Dモデル生成への展開も期待されています。実際、テキストからの動画生成や、単一画像からの3Dシーン再構築といった研究も登場し始めています。こうした発展により、クリエイティブの在り方やデザインワークフローが一変する可能性もあります。生成AIがもたらす恩恵を最大化しつつリスクを抑えるため、技術的理解と社会的議論の双方がますます重要になるでしょう。

最後に、本稿の内容がAI画像生成技術の理解促進に役立ち、読者の今後の研究開発や実務応用の一助となれば幸いです。一層の技術革新が進むこの領域で、我々も引き続き最新動向をウォッチしていきたいと思います。

参考文献: 本文中で引用した文献・情報源を以下に示します。

【1】 Fengxiang Bie et al., “RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model”, arXiv 2309.00810 (2023)ar5iv.labs.arxiv.orgar5iv.labs.arxiv.org

【2】 Chitwan Saharia et al., “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding” (Imagen), arXiv 2205.11487 (2022)arxiv.org

【3】 OpenAI, “DALL·E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents”, arXiv 2204.06125 (2022)arxiv.orgarxiv.org

【4】 CompVis, Stable Diffusion v1 Model Card, GitHub (2022)github.comgithub.comgithub.com

【5】 Robot Film School, “Midjourney Magic: A Glimpse into How it is Trained and How it Works”, Blog (2023)robotfilmschool.comrobotfilmschool.com

【6】 Dev Das, “How does MidJourney create images in real time?”, Medium (2023)medium.commedium.com

【7】 Martin Heusel et al., “GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium”, NeurIPS (2017)arxiv.orgarxiv.org

【8】 Wikipedia, “Inception score” (2023-07-15)en.wikipedia.orgen.wikipedia.org

【9】 Jack Hessel et al., “CLIPScore: A Reference-free Evaluation Metric for Image Captioning”, EMNLP (2021)arxiv.org

【10】 Aditya Ramesh et al., “Zero-Shot Text-to-Image Generation”, ICML (2021)arxiv.orgarxiv.org

【11】 Jonathan Ho et al., “Denoising Diffusion Probabilistic Models”, NeurIPS (2020)arxiv.orgarxiv.org

【12】 Alec Radford et al., “Improved Techniques for Training GANs”, arXiv 1606.03498 (2016)proceedings.mlr.press

【13】 Generative AI Lab (Towards AI), “Comparing Diffusion, GAN, and VAE Techniques”, Blog (2024)generativeailab.orggenerativeailab.org

【14】 LAION, “LAION-5B: An open large-scale dataset for training next generation image-text models”, laion.ai (2022)github.comrobotfilmschool.com

【15】 OpenAI, “Improving Image Generation with Better Captions (DALL·E 3)”, arXiv 2309.11495 (2023)cdn.openai.comcdn.openai.com