MLエンジニアへの道 #63 - アクティブ & ボリュームステレオ

Last Edited: 6/19/2025

このブログ記事では、コンピュータビジョンにおけるアクティブステレオとボリュームステレオについて紹介します。

ML

これまで、エピポーラ幾何学とSfMについて説明し、それらのほぼすべてのプロセスが対応問題に関連する困難と制限に直面していることを発見しました。 この記事では、これらの問題を克服し、3D世界の理解をさらに向上させることを目的とした代替的な視覚システムについて議論します。

アクティブステレオ

アクティブステレオは、ステレオシステムの片方のカメラをプロジェクターに置き換えることで対応問題を簡素化することを目的としています。 この設定では、プロジェクターの仮想画像上の点の対応する投影は、光が反射され、もう一方のカメラで撮影された画像に投影される場所を特定することで簡単に識別できます。 プロジェクターとカメラをキャリブレーションまたは平行化して、それらの平面を平行にすることで、問題をさらに簡素化できます。 この平行設定では、3Dシーン全体に垂直線を投影し、投影された線とエピポーラ線の交点を求めることで対応点を見つけることができます。

Active Stereo

この設定は適切にキャリブレーションされれば非常に正確な結果を生成できますが、オブジェクト全体に垂直線を走査するのに時間がかかるため、 高価で低速です。低速であるため、オブジェクトの形状変形をリアルタイムで捉えることができません。 代わりに、既知の色のパターンを持つ複数の垂直線を一度に投影することで、すべての対応関係を見つけ、3Dシーンをリアルタイムで捉えることができます。 Microsoft Kinectの初期バージョンを含む多くの現代の深度センサーは、あらゆる環境光条件下で動作する赤外線レーザープロジェクターとセンサーを使用してこの概念を活用しています。

空間彫刻とシャドウ彫刻

対応問題を軽減するもう一つの方法は、3D再構成に対応する投影を使用することを避けることです。 単純に3Dオブジェクトの形状を捉えることが目的であれば、オブジェクトが限定された既知の体積を持つと仮定し、ボリュームステレオアプローチを適用できます。 ボリュームステレオアプローチの一つが空間彫刻で、画像平面におけるオブジェクトのシルエットと一致するように3Dオブジェクトの形状を推定します。 具体的には、限定された体積をボクセルグリッド内のボクセルに分割し、オブジェクトのシルエットと矛盾するボクセルを除去して空間を彫刻します。

Space & Shadow Carving

空間彫刻はグリーンバックを使用して簡単に取得できるオブジェクトのシルエットを利用するため、より単純に思えますが、独自の制限があります。 例えば、高品質な3Dオブジェクト形状の推定のためにボクセルのサイズを小さくすると、ボクセル数が3乗的に増加し、処理時間が大幅に増加します。 また品質は、カメラの数、シルエットの一貫性、オブジェクトの形状にも依存します。例えば、わずかに動く凹面を持つオブジェクトに2台のカメラのみを使用すると、 品質は著しく低下します。

最も重要な問題である凹面に関する制限を回避するために、シャドウ彫刻を使用できます。これは、カメラの周りに複数の光源を導入してセルフシャドウを投射し、 凹面の一部である可能性が高い影の視覚的円錐内にあるボクセルを除去する方法です。この方法は空間彫刻によって提供される推定を改善できますが、 セルフシャドウをうまく投射しない高反射面や非反射面ではうまく機能しません。

ボクセルカラーリング

もう一つのボリュームステレオアプローチはボクセルカラーリングで、ランベルト面オブジェクト(オブジェクトのどの部分の知覚輝度、つまり色も、視点の位置や姿勢によって変化しない)を仮定し、 複数の視点からボクセルに色を付けます。このアプローチは形状と色(テクスチャ)を同時に捉えることができるため有益です。 しかし、色の一貫性をチェックできない非ランベルト面オブジェクトでは欠点がある他、解に曖昧性と一意性の欠如があります。

Voxel Coloring

曖昧性を回避するために、外側の層から始めてボクセルグリッドを層ごとに段階的に処理し、各層で色の一貫性チェックを実行することで、可視性制約を導入できます。 ボクセル内の同じ色が少なくとも2台のカメラで見えなかった場合、そのボクセルは遮蔽されており、オブジェクトの一部ではないと仮定できます。 しかし、ボクセルカラーリングは依然として非ランベルト面オブジェクトとボクセル数の3乗スケーリングの制限を持ちます。

結論

この記事では、プロジェクターで対応問題を簡素化し、正確な3D再構成と深度センシングを可能にするアクティブステレオと、 対応点の使用を完全に回避し、シルエットと影でボクセルグリッドを彫刻したり色を付けたりすることで高品質な3D再構成の取得に焦点を当てるボリュームステレオについて説明しました。 3Dシーンやオブジェクトに関する情報を推定できる単眼および立体視覚システムの基礎といくつかの代替アプローチについて説明したため、 次の記事から最適な表現を学習し、それらに対してコンピュータビジョンタスクを実行する方法について議論を始めます。

リソース