VAE(Variational Autoencoder:変分オートエンコーダとは、Stable Diffusionなどの画像生成AIにおいて重要な役割を果たすニューラルネットワークの構成要素である。
適切なVAEを使用することで画像の鮮明化、豊かな色彩、適切なコントラストなどの効果を得られる。
VAEの基本概念
定義と役割
VAEは潜在空間と実際の画像の間を変換する役割を担う。具体的には以下の2つの機能を持つ。
- エンコーダー(Encoder): 実際の画像を潜在空間の表現に圧縮
- デコーダー(Decoder): 潜在空間の表現を実際の画像に復元
Stable DiffusionにおけるVAE
Stable Diffusionは潜在拡散モデルであり、直接画像を生成するのではなく、まず潜在空間で拡散過程を実行し、最後にVAEで実際の画像に変換する。
VAEの具体的な働き
画像生成プロセスでの位置
テキストプロンプト → U-Net(拡散処理)→ 潜在表現 → VAE(デコード)→ 最終画像
潜在空間の利点
- 計算効率: 512×512画像を64×64の潜在表現で処理(8分の1に圧縮)
- メモリ削減: より少ないVRAMで高解像度画像生成が可能
- 処理速度: 小さなデータサイズでの高速処理
VAEが画像に与える影響
色彩・明度
- 彩度: 色の鮮やかさや深さ
- コントラスト: 明暗の差
- 色温度: 暖色・寒色のバランス
画像品質
- 鮮明度: 画像の輪郭やディテールの明確さ
- ノイズ除去: 不要なノイズの軽減
- 全体的な見た目: 画像の印象や雰囲気