Next: 手指モデル Up: シルエットを利用した手指の三次元形状推定法 Previous: シルエットを利用した手指の三次元形状推定法

はじめに

対象が既知である三次元物体の姿勢・形状推定において、モデルベースドビジョンが有効であるとされている。これは、視覚システムが、モデルの知識を積極的に利用することで、画像情報を効率良く推定に用いることができるからである。

特に、対象物体の三次元形状が変形しないことを前提とし、その物体の姿勢推定を行うシステムを構築する場合、物体モデルの三次元幾何構造をいかに効率良く利用するかに注意が払われてきた。代表的な研究のひとつとして ACRONYM[1]やそれに続く研究が挙げられる。一般に、三次元物体の姿勢推定を行う場合、画像を信号処理して得られる特徴の量は、膨大となる。これを``ボトムアップ的情報''と呼び、この大量の情報を、モデルから得られる知識に如何に効率良く対応させて姿勢推定を行うかが問題となる。久野らは、ボトムアップ的情報を、画像から一次的に得られる局所的特徴と、それらを組み合わせて得られる中間レベル特徴とに分類し、各々の認識戦略における得失について述べている[2]。

これに対して、認識対象に変形を認めるような研究については、まだあまり研究が進められていない。これは、画像から抽出されるボトムアップ的情報が大量であるのに加え、対応させるべきモデルの知識の増加によって、ボトムアップ的情報のモデルへの対応付けにおける計算量が膨大になってしまうからである。

そこで、本研究では、認識対象に変形を許す代わりに、画像を処理して得られる情報が少ない環境を想定し、そのもとでどのような認識の枠組が必要とされるかを実験を通して考察する。そのための認識対象として、形状にかなりの複雑さをもつ人間の手指を選択した。また、画像情報として、シルエット画像を利用することにした。シルエット画像は、対象が存在する領域では1の画素値をとり、そうでない領域では0をとる。シルエット画像は輝度画像に比べて画像情報量が少ないが、これを用いることにより画像に対する適切な形状推定の範囲が広がる。本手法では、出来るだけボトムアップ的情報の量の増大を抑えるため、画像情報は各画素の位置とその値しか利用しない。さらに探索空間を狭めるため、効率の良いモデリングを行う。実験の結果、このような環境設定下で、三次元形状の推定が可能であることを示した。

以下、2章で手指に対する効率の良いモデリング法について考察し、3章でそのモデルを用いた三次元形状推定方法について述べ、4章で実験結果を示し、考察を行う。

Yoshinari Kameda
1997年04月03日 (木) 20時03分13秒 JST