MLエンジニアへの道 #57

このブログ記事では、コンピュータビジョンにおけるAdaIN（および他の正規化の方法）について紹介します。

前回の条件付きDDPMに関する記事では、条件付きモデルを作成するには単に条件埋め込みを接続するだけであると述べられましたが、実際にはこれが常に行われているわけではありません。DiTでは、条件埋め込みは適応的レイヤー正規化（AdaLN）に使用されています。これはインスタンス正規化から派生した適応的インスタンス正規化（AdaIN）に基づく方法です。そこで、この記事では、これまで議論していなかったいくつかの正規化の方法について説明します。これらはさまざまなコンピュータビジョンタスクで使用され、 DiTにおけるAdaLNにつながっています。

グループ正規化 & インスタンス正規化

レイヤー正規化は、バッチ正規化の問題である、小さなパッチに対するパフォーマンスの低下、さまざまな長さのデータを含むバッチを処理できないこと、トレーニングと推論時の操作の違いなど解決しました。しかし、レイヤー正規化は画像に対してバッチ正規化ほど良いパフォーマンスを示しませんでした。これはおそらく、バッチ正規化が各チャネルを正規化するのに対し、レイヤー正規化はチャネルに関係なく各画像を正規化するため、重要な信号を乱す可能性があるからです。レイヤー正規化のパフォーマンスを向上させる試みとして、グループ正規化は各画像のチャネルのグループを正規化し、インスタンス正規化は各画像の各チャネルを正規化します。

上は、画像バッチに対するバッチ、レイヤー、グループ、およびインスタンス正規化を示しており、各色はチャネルを表しています。正規化を行う際にチャネルを尊重することで、グループ正規化は大きな画像バッチに対してバッチ正規化と近いパフォーマンスを達成し、小さな画像バッチ（バッチあたり約16画像以下）に対してもそのパフォーマンスを維持し、小さなバッチに対してはバッチ正規化を上回りました。しかし、グループ正規化とは異なり、インスタンス正規化は比較的パフォーマンスが低いことが確認されています。これはおそらくチャネル間の相関を捉えることができず、単に少ない数の値を正規化するため、正規化の効果が弱くなるからです。

CIN & AdaIN

インスタンス正規化は画像分類タスクにおいてバッチ正規化ほど効果的ではありませんでしたが、スタイル転送においてはより効果的であることが分かっています。スタイル転送とは、ある画像のスタイルを別の画像に転送するモデル（例えば、写実的な画像を「星月夜」のスタイルに変換する）です。これは、自然なスタイル転送では異なる画像に対して異なるチャネル分布の調整が必要であり、インスタンス正規化がこれらの調整を行うための柔軟性を提供するためと考えられます。

スタイル転送をより制御するために、条件付きインスタンス正規化（CIN）は各スタイル $s$ に対して異なる学習可能なパラメータ（ $\gamma_s$ と $\beta_s$ ）を使用します。このスタイル $s$ はトレーニング中にランダムに選択され、推論時には手動で選択されます。CINはある程度うまく機能しますが、より多くの学習可能なパラメータが必要であり、事前に設定されたスタイルしか選択できません。そのため、適応的インスタンス正規化（AdaIN）では、学習可能なパラメータ $\gamma_s$ と $\beta_s$ を、転送するスタイルの画像の埋め込み $s$ から得られる $\sigma(s)$ と $\mu(s)$ に置き換えます。これらの調整により、AdaINはより少ないパラメータでスタイル転送において高いパフォーマンス、堅牢性、柔軟性を実現しました。

AdaLN

DiTでは、CLIP埋め込み（または他の条件埋め込み）を入力パッチ埋め込みに付加する代わりに、適応的レイヤー正規化（AdaLN）を使用します。ここでは、標準偏差と平均 $\sigma(c)$ と $\mu(c)$ が標準的なレイヤー正規化の学習可能なパラメータの代わりに使用され、予測されるノイズの分布が条件の分布に影響されるようになっています。この方法により、位置埋め込みに繰り返し条件信号を上乗せすることを避け（DiTは時間とクラス/CLIP埋め込みを足してAdaLNの条件付き埋め込みを得ます）、 AdaINによるスタイル転送と同様に自然に分布をシフトさせ、高品質で堅牢な条件付き画像生成を実現します。

備考：AdaLNは効果的な条件付き画像生成のための必須条件ではありません。 LDMとDiTよりも優れたFIDスコアを達成したDiffiT（Diffusion Vision Transformer）は、潜在空間での自己注意機構に、条件付き埋め込み（クラス/CLIP埋め込み + 時間埋め込み）と入力画像パッチの加重和と、相対的位置バイアス（Swin Transformersで見られる）を使用しています。

結論

この記事では、バッチ正規化とレイヤー正規化に加えて、グループ正規化とインスタンス正規化、CIN、AdaIN、そしてAdaLNなど、コンピュータビジョンの文脈における新しい正規化の方法を紹介しました。これらはすべて長所と短所があり、使用ケースに応じて最も適切な方法を選択することが重要です。

リソース

Hatamizadeh, A. et al. 2024. DiffiT: Diffusion Vision Transformers for Image Generation. ArXiv.
Huang, X. & Belongie, S. 2017. Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization. ArXiv.
Ulyanov, D. et al. 2017. Instance Normalization: The Missing Ingredient for Fast Stylization. ArXiv.
Wu, Y. & He, Y. 2018. Group Normalization. ArXiv.