VAE(Variational Autoencoder:変分オートエンコーダとは、Stable Diffusionなどの画像生成AIにおいて重要な役割を果たすニューラルネットワークの構成要素である。

適切なVAEを使用することで画像の鮮明化、豊かな色彩、適切なコントラストなどの効果を得られる。

VAEの基本概念

定義と役割

VAEは潜在空間実際の画像の間を変換する役割を担う。具体的には以下の2つの機能を持つ。

  1. エンコーダー(Encoder): 実際の画像を潜在空間の表現に圧縮
  2. デコーダー(Decoder): 潜在空間の表現を実際の画像に復元

Stable DiffusionにおけるVAE

Stable Diffusionは潜在拡散モデルであり、直接画像を生成するのではなく、まず潜在空間で拡散過程を実行し、最後にVAEで実際の画像に変換する。

VAEの具体的な働き

画像生成プロセスでの位置

テキストプロンプト → U-Net(拡散処理)→ 潜在表現 → VAE(デコード)→ 最終画像

潜在空間の利点

  • 計算効率: 512×512画像を64×64の潜在表現で処理(8分の1に圧縮)
  • メモリ削減: より少ないVRAMで高解像度画像生成が可能
  • 処理速度: 小さなデータサイズでの高速処理

VAEが画像に与える影響

色彩・明度

  • 彩度: 色の鮮やかさや深さ
  • コントラスト: 明暗の差
  • 色温度: 暖色・寒色のバランス

画像品質

  • 鮮明度: 画像の輪郭やディテールの明確さ
  • ノイズ除去: 不要なノイズの軽減
  • 全体的な見た目: 画像の印象や雰囲気