視覚ルーチンは、視覚的なシーンから情報を抽出する手段です。
シモン・ウルマンは、人間の視覚認知に関する研究において、人間の視覚システムが形状特性と空間関係を認識するというタスクは、2つの連続した段階に分かれていると提唱した。1つは視覚入力から基本表現が生成される初期の「ボトムアップ」段階、もう1つは「視覚ルーチン」と呼ばれる高レベルのプリミティブが基本表現から必要な情報を抽出する後期の「トップダウン」段階である。 [1]人間の場合、ボトムアップ段階で生成される基本表現は、色、エッジの向き、動きの速度、動きの方向といった特性に関する網膜トピックマップ(皮質には15個以上存在する)に対応する。これらの基本表現は、視覚入力の全視野にわたって均一に実行される固定操作に依存しており、物体固有の知識、タスク固有の知識、その他の高レベルの情報は利用しない。[2]
ウルマンが提案した視覚ルーチンは、シーンの構造を解析し、基本表現から空間情報を抽出する高水準プリミティブである。これらの視覚ルーチンは、対象となるタスクに特有の一連の基本視覚演算子から構成される。視覚ルーチンは、基本表現の固定操作とは異なり、視野全体に均一に適用されるのではなく、ルーチンによって指定されたオブジェクトまたは領域にのみ適用される。[1]
ウルマンは視覚オペレータの例として、処理の焦点をシフトすること、さらなる処理のために重要な項目をインデックスすること、境界で区切られた領域に活性化を広げること、境界をトレースすること、そして将来の参照のために場所や物体をマークすることなどを挙げています。これらの基本的なオペレータを視覚ルーチンに組み込むことで、特定の特性を満たす物体の数を数える、複雑な形状を認識するなど、比較的高度な空間タスクを実行することができます。[1]
多くの研究者が、カメラ画像を処理する視覚ルーチンを実装し、カメラ画像内の人間が指している物体を特定するなどのタスクを実行してきました。[3] [4] [5]また、研究者たちは、リアルタイム2Dビデオゲームのプレイのための人工マップ表現に視覚ルーチンのアプローチを適用しました。しかし、これらのケースでは、ビデオゲームのマップが直接提供されたため、物体認識や遮蔽補正といった現実世界の知覚タスクを処理する必要性が軽減されました。
参考文献
- ^ abc 「ウルマンのビジュアルルーチンと鉄骨スケッチ」(PDF)。
- ^ Huang, J.; Wechsler, H. (2000年4月). 「学習と進化を用いた眼の位置特定のための視覚ルーチン」. IEEE Transactions on Evolutionary Computation . 4 (1): 73– 82. doi :10.1109/4235.843496. ISSN 1089-778X.
- ^ Johnson, MP (1996年8月). 「遺伝的プログラミングを用いた視覚ルーチンの自動作成」.第13回国際パターン認識会議論文集. 第1巻. pp. 951–956. doi :10.1109/ICPR.1996.546164. ISBN 978-0-8186-7282-8. S2CID 1701864。
- ^ Aste, Marco; Rossi, Massimo; Cattoni, Roldano; Caprile, Bruno (1998-06-01). 「車両挙動のリアルタイム監視のための視覚ルーチン」.マシンビジョンとアプリケーション. 11 (1): 16– 23. CiteSeerX 10.1.1.48.5736 . doi :10.1007/s001380050086. ISSN 0932-8092. S2CID 25480778.
- ^ Rao, Satyajit. 「視覚ルーチンと注意」(PDF) . MITコンピュータサイエンスおよび人工知能研究所.