MLエンジニアへの道 #62

このブログ記事では、コンピュータビジョンにおけるSfMについて紹介します。

前回の記事では、エピポーラ幾何に基づいて3Dの世界を理解するために2つの視点を持つことがいかに有用であるか、また同時にどのような困難や限界に直面するかについて議論しました。これらの問題を軽減する方法として、（より多くのカメラを導入したり、動くカメラで動画を撮影したりして）視点の数を増やすことで、 Structure from Motion（SfM）と呼ばれる技術を通じて3D シーンを理解しカメラパラメータを推定することを考えることができます。そこで本記事では、SfMの基礎と、複数の視点を持つことが3D世界の理解をいかに向上させるかについて議論します。

アフィンSfM

まず始めに、SfM問題を正式に定義することができます。以下に示す一般的な設定では、カメラ投影行列 $M_i$ を持つ $m$ 台のカメラと、すべてのカメラから見えると仮定されるシーン内の $n$ 個の3D点 $X_j$ があります。目的は、対応するすべての投影 $x_{ij}$ から、シーンの3D点の構造（ $n$ 個の点 $X_j$ ）とカメラの動き（ $m$ 個のカメラ投影 $M_i$ ）の両方を復元することです。 SfM問題へのアプローチを理解するために、カメラが射影変換ではなくアフィン変換を行う、より単純化された問題から取り組むことができます（アフィンカメラ）。

この単純化により、 $X$ から $x$ へのアフィンカメラ変換は、ユークリッド座標を使用して $x_{ij}=M_iX_j=[A_i \quad b_i]X_j$ として簡単に表現できます。ここで、 $A$ は $2 \times 3$ 行列、 $b$ は2Dベクトルです。したがって、カメラと点の未知数の数はそれぞれ $8m-8$ と $3n$ であり、 $mn$ 個の観測から得られる $2mn$ 個の方程式でこれらを推定する必要があります。この未知数と方程式の数の関係（ $8m+3n-8 \lt 2mn$ ）を使用して、十分な観測または対応する投影があるかどうかを判断できます。

Tomasi-Kanade因子分解法

十分な数の観測から、正規化と因子分解を利用するTomasi-Kanade因子分解法を使用して、構造と動きに関する情報を推定できます。この手法は、まず各カメラの投影の重心を $\bar{x}_i=\frac{1}{n}\sum_{k=1}^{n} x_{ik}$ として決定し、 $\hat{x}_{ij}=x_{ij}-\bar{x}_i$ を使用して投影を正規化します。これは以下のようにさらに導出できます。

\hat{x}_{ij}=x_{ij}-\bar{x}_i = A_iX_j+b_i-\frac{1}{n}\sum_{k=1}^{n} A_iX_k -\frac{1}{n}\sum_{k=1}^{n} b_i \\ = A_i(X_j-\frac{1}{n}\sum_{k=1}^{n} X_k) = A_i(X_j-\bar{X}) = A_i\hat{X_j}

ここで、 $\bar{X}$ は3D点の重心です。 $\bar{X}$ を世界参照系の中心 $(0,0,0)^T$ として定義すると、 $\hat{X_j}=X_j$ と設定でき、投影と構造・動きの関係を $\hat{x}_{ij}=A_iX_j$ として単純化できます。次に、正規化された投影の集合を含む $2m \times n$ 測定行列 $D$ を定義し（各投影が2Dベクトルであるため $2m$ となる）、関係を $D=AX=MS$ として書き換えることができます。ここで、 $A$ はすべての $A_i$ を行として含み、 $X=S$ はすべての $X_j$ を列として含みます。

$D$ は $2m \times 3$ 行列と $3 \times n$ 行列の積として表現されるため、階数3を持ち、SVDによる階数3近似 $U_3\Sigma_3V_3^T$ を実行することで構造と動き $S$ と $M$ を推定するために使用できます（ここで $M=U_3\sqrt{\Sigma_3}$ 、 $S=\sqrt{\Sigma_3}V_3^T$ ）。しかし、この推定にはアフィン曖昧性があります。なぜなら、任意の可逆アフィン変換（回転、平行移動、スケーリング、せん断）を $D=(MA^{-1})(AS)$ のように適用しても、同じ $D$ が得られるからです。

透視SfM

カメラが射影変換を行う実世界のシナリオでは、同次座標における $x = MX$ を用いて因数分解を実行できます。これは、 $11m + 3n - 15$ 個の未知数（ $M$ は11個の未知数を持つため）を $2mn$ 個の方程式で解くのに十分な観測に基づいています。しかし、アフィンSfMと同様に、任意の可逆射影変換 $H$ を $M$ と $S$ に適用できるため、推定は本質的に透視曖昧性の影響を受けます。

透視曖昧性の影響は避けられないながらも、エピポーラ幾何学に基づく代数的アプローチを使用して、十分な観測から $M$ と $S$ を推定することもできます（エピポーラ幾何学について不明な場合は、記事MLエンジニアへの道 #61 - エピポーラ幾何を確認することをお勧めします）。まず、透視曖昧性を考慮するために、 $\tilde{M}_1 = M_1H^{-1} = [I \quad 0]$ 、 $\tilde{M}_2 = M_2H^{-1} = [A \quad b]$ 、 $\tilde{X} = HX$ と表現できます。次に、射影、構造、運動の関係を $x = \tilde{M}_1\tilde{X} = [I \quad 0]\tilde{X}$ および $x' = \tilde{M}_2\tilde{X} = [A \quad b]\tilde{X}$ として確立できます。

ここで、 $x'$ をさらに導出して $x' = A[I \quad 0]\tilde{X} + b = Ax + b$ を得ることができ、これは対応する射影間の関係を表現します。 $x'$ と $b$ の両方がエピポーラ平面上にあるため、それらの外積 $x' \times b = (Ax + b) \times b = Ax \times b$ を取ることができ、これはエピポーラ平面に垂直なベクトルを生成します。ここで、 $x'$ は $Ax \times b$ に垂直なので、 $x'^T(b \times Ax) = 0$ を確立できます。外積の行列乗算表現を使用すると、 $x'^T[b_{\times}]Ax = 0$ に到達し、 $p'^TFp = 0$ から $F = [b_{\times}]A$ となります。

上記から、 $A = -[b_{\times}]F$ および $\tilde{M}_2 = -[b_{\times}]F \quad b$ を得ることができます。さらに、 $b$ はエピポーラ平面上にあるため、 $Fb = (Ax + b)b = 0$ となり、 $b$ はエピポール $e$ であり、 $\tilde{M}_2 = -[e_{\times}]F \quad e$ となります。前回の記事で扱った8点アルゴリズムを使用して $F$ の推定値を得ることができ、これにより $\tilde{M}_2$ の推定値を得ることができます。最後に、これを他のすべてのカメラとのペアで実行してすべての $\tilde{M}$ の推定値を得ることができ、三角測量を使用して $\tilde{X}$ を推定できます。

バンドル調整と自己キャリブレーション

上のセクションでは、一般的なケースにおいて、SVDを用いた因数分解アプローチと $F$ と三角測量を使用した代数的アプローチを使用して、透視曖昧性を持つ構造と運動の推定値を得る方法を見ました。しかし、両方とも固有の制限があります。因数分解アプローチは、すべての点がすべてのカメラに見えることを仮定しますが、これは遮蔽のためにしばしば真ではありません。また、代数的アプローチは、カメラ視点のペアのみを処理でき、すべてのカメラの推定値を最適化することはできません。

これらの制限に対処するために、しばしばバンドル調整を使用します。これは、誤差 $E(M, X) = \sum_{i=1}^m \sum_{j=1}^n D(x_{ij}, M_iX_j)^2$ を最小化することにより、（因数分解および/または代数的アプローチ後の）推定値を改良する非線形手法を適用するものです。この手法により、最適化中により多くの視点が考慮されるため（これにより各オクルージョンと誤差の影響がある程度軽減される）、より良い推定値に到達できます。しかし、バンドル調整後でも、対応問題の困難さと制限、および透視曖昧性により、推定値の品質に制約があります。

曖昧性に関しては、単一視点測量制約（水平線）やその他のアプローチを使用して実現できる自己キャリブレーションを通じてある程度解決できます。自己キャリブレーションにより、カメラ射影行列 $M$ の曖昧性を軽減できるため、バンドル調整中に透視（またはアフィン）曖昧性を類似曖昧性（回転、平行移動、スケーリング）に軽減できます。これにより、3Dオブジェクトと3Dシーンの形状をより明確に理解できます（3D再構成に有用）。しかし、キャリブレーションされたカメラでも類似曖昧性が存在することは、任意の数の画像からオブジェクトの絶対スケールと位置を知ることが単純に不可能であるという固有の制限を示しています。

この記事や以前の記事で議論したように、三角測量と視差を使用してオブジェクトの相対的な深度を見つけることはできますが、さらなる仮定（オブジェクトサイズの経験則に基づく予測）を行い、より多くのデータ（世界参照システムにおける既知の位置を持つ点を使用したキャリブレーション）を収集することなしに、それらの絶対スケールと位置を見つけることはできません。私たちの視覚のシステムは、これらすべてのプロセス（SfM、経験則に基づく予測と私たちの手のような参照点を使用したキャリブレーションによるオブジェクトスケールのある程度の曖昧性解消）を実行して、絶対スケールと位置を推定している可能性が高いです。

結論

この記事では、複数視点を用いたアフィンおよび透視SfMと、それらがどのように1つまたは2つの視点のみを持つ場合よりも構造と運動のより良い推定値を導くかを紹介しました。また、推定品質に影響する対応問題の既知の困難さと制限に加えて、類似曖昧性によってもたらされる固有の制限の存在を明らかにしました。最後に、複雑な処理、推論、参照点（画像を見る際にはアクセスできない）を通じて、実世界で我々がこれらにどのように対処している可能性があるかを分析しました。次の記事では、これまで議論した制限の一部を軽減することを目的とした代替システムについて議論します。

リソース

Hata, K. & Savarese, S. 2025. CS231A Course Notes 4: Stereo Systems and Structure from Motion. Stanford.
Savarese, S. & Bohg, J. 2025. Lecture 7 Multi-view Geometry. Stanford.