視覚索引理論( FINST理論とも呼ばれる)は、1980年代にゼノン・ピリシンによって提唱された初期視覚知覚理論です。この理論は、視覚シーンの顕著な要素を個別化し、それらの位置を空間と時間にわたって追跡する機能を持つ前注意メカニズム(FINST)を提唱しています。ピリシンが当時の主要な視覚知覚理論の限界と見なしていた点に対応して開発された視覚索引理論は、複数の経験的証拠によって裏付けられています。
概要

インスタンス化の指
「FINST」は「FINgers of INSTantiation」の略です。ピリシンは視覚索引理論をこのアナロジーで説明しています。[1]彼は、あるシーンにある 5 つの別々のオブジェクトに指を置くことを想像してみてください。これらのオブジェクトが動き回っても、指はそれぞれに接触したままなので、それらの所在と互いの位置を継続的に追跡できます。この方法ではアイテム自体の詳細な情報を識別することはできないかもしれませんが、指の存在が参照を提供し、シーン内でオブジェクトを再配置することなく、いつでもそのような情報にアクセスできます。さらに、時間の経過に伴うオブジェクトの連続性は本質的に維持されます。つまり、指が継続的に接触しているため、時刻tに小指で参照しているオブジェクトは、 t −1に小指で参照しているオブジェクト と同じオブジェクトであることがわかります。
視覚索引理論によれば、視覚知覚システムは類似した仕組みで機能すると考えられています。FINSTは上記のシナリオにおける指のように動作し、視覚空間内の様々な物体の位置を指し示し、追跡します。指と同様に、FINSTは以下の特徴を持ちます。
- 複数。複数のオブジェクトを個別の FINST で同時に独立してインデックス付けおよび追跡できます。
- 粘着性。インデックス付きオブジェクトがビジュアルシーン内を移動すると、FINST も一緒に移動します。
- インデックス対象となるオブジェクトの特徴は不透明です。FINSTはオブジェクトの位置のみに基づいて参照します。FINSTメカニズム自体では、参照対象に関する追加情報は伝達されません。
視覚知覚プロセスにおける役割
個性化
FINSTは前注意段階、つまり視野内の物体に注意が向けられる前に機能します。FINSTの主な役割は、場面内の特定の顕著な特徴を個別化し、それらを他の刺激と概念的に区別することです。視覚的インデキシング理論によれば、FINSTは高次の知覚処理の必須の前提条件です。
ピリシンは、FINSTが直接的に作用するのは網膜上の「特徴クラスター」であると示唆しているが、FINSTの割り当てに関する正確な基準は定義されていない。「FINSTがそもそもどのように割り当てられるのかという問題は依然として未解明だが、主に刺激駆動型、おそらく刺激の局所的に異なる特性の活性化、特に視野に新たな特徴が現れることによって割り当てられると考えるのが妥当だろう。」[1]
FINSTにはリソース制約があります。最大5つのFINSTを常時割り当てることができ、FINSTされたオブジェクト間の相対的な位置に関する情報を視覚システムに提供します。
トラッキング
物体が個別化されると、FINSTは網膜上を移動するにつれて、その特定の特徴クラスターをインデックス化し続けます。「このようにして、網膜上に投影されている遠位の特徴は、網膜上の位置を意識することなく、FINSTメカニズムを通じてインデックス化することができます。」[1] FINSTは、物体が移動するにつれてその位置を継続的に追跡することで、時間の経過に伴う物体の連続性を維持するという追加機能も果たします。
注意の促進
視覚索引理論によれば、物体はまず索引付けされるまで注目することができません。FINSTが割り当てられると、視覚系は索引によって物体に迅速かつ優先的にアクセスでき、色、質感、形状といった特徴をさらに処理できるようになります。
この意味でFINSTは高次の処理を実行するための手段を提供しますが、FINST自体は「参照先のオブジェクトの特性に対して不透明」です。[1] FINSTは、インデックスされたオブジェクトについて、特定の瞬間における位置以外の情報を直接伝えることはありません。「したがって、最初の接触時には、オブジェクトが特定のタイプに属している、または特定の特性を持っていると解釈されることはありません。言い換えれば、オブジェクトは概念化されることなく最初に検出されます。」[2]前述の指と同様に、FINSTの視覚知覚における役割は、純粋にインデックス的なものです。
理論的背景
視覚索引理論は、ピリシンが従来の知覚と認知の理論、特に注意のスポットライトモデルと視覚表現の記述的見解の限界と見なしていたことへの対応として部分的に作成されました。[1] [3]
スポットライトとズームレンズによる注目のモデル
視覚知覚に関する従来の見解では、注意は視覚処理の根幹を成すとされています。ポズナー、スナイダー、デイビッドソン(1980)は、「注意は、光線内の事象の検出効率を高めるスポットライトに例えることができる」と述べています。[4]このスポットライトは、意図的に制御することも、無意識に情景の顕著な要素に引き寄せることもできますが、[5]重要な特徴は、一度に一つの場所にしか向けられないことです。1986年、エリクセンとセント・ジェームズは一連の実験を行い、注意のスポットライトにはズームレンズが備わっていることを示唆しました。ズームレンズは、注意の焦点領域を拡大することを可能にします(ただし、利用可能な注意資源には一定の限界があるため、処理効率は犠牲になります)。[6]
ピリシンによれば、スポットライト/ズームレンズモデルは視覚知覚の全体像を説明できない。彼は、そもそも注意のスポットライトを向けることができる対象を個別化するには、前注意メカニズムが必要であると主張する。さらに、複数物体追跡研究の結果(後述)は、「単一の注意のスポットライトの周りを移動することで対象にアクセスするという提案と矛盾する」。[7]視覚索引理論はこれらの限界に対処する。
視覚的表現の説明的な見方
心的表象に関する古典的な見解によれば、私たちは対象を、それが属する概念的記述に従って知覚する。私たちが周囲の世界について意味のある表象を構築し、適切な行動方針を決定するのは、視覚知覚の生のコンテンツではなく、これらの記述によるものである。ピリシンの言葉を借りれば、「道に迷ったときにどの方向に進むかを決めるのは、空の明るい点ではなく、それを北極星として見る(あるいは表象する)という事実である」[3] 。知覚を適切な記述と一致させる方法は、現在も研究が続けられている(例えば、対象物の各部分が組み合わされて全体を表す方法など)が、記述がこのように視覚知覚にとって基本的な役割を果たすという点で、一般的な合意が得られている[8] 。 [3]
注意のスポットライトモデルと同様に、ピリシンは視覚表象の記述モデルを不完全だと捉えている。一つの問題点は、この理論が指示的参照、つまり指示的参照を考慮していないことである。「例えば、視覚刺激がある場合、『あれは赤い』といった思考をすることができる。この場合、『あれ』という用語は、それがどのカテゴリーに属するか、どのような特性を持つかに関係なく、視野内で選択したものを指す。」[3]また、この理論は、同じ種類の複数の物体の中から単一のトークンをどのように選び出すことができるかを説明する際に問題を抱えている。例えば、スーパーマーケットの棚に並んでいる、同じ記述に当てはまる多数の同一の缶の中にある特定のスープ缶を指すとしよう。どちらの場合も、その物体がどのような記述に該当するかに関わらず、シーン内の物体を選び出すためには時空間的な参照が必要である。ピリシンは、FINSTがまさにそのような参照を提供すると示唆している。
ピリシンによれば、この見解のより深刻な問題は、物体の時間的連続性を説明できないことである。「個体は、移動したり、可視特性の一部(あるいは全部)が変化したりしても、同じ個体のままである。」[3]。物体を概念的記述のみに基づいて参照する場合、それらの記述が変化した際に視覚システムがどのように物体の同一性を維持するのかは明確ではない。「視覚システムは、ある瞬間にその個体がどのような特性を持っているかに関わらず、特定の個体を識別できる必要がある。」[3]。ピリシンは、FINSTが参照する物体の記述から切り離されていることで、この問題は克服されると主張する。
実験的証拠
視覚索引理論を裏付けるデータを提供する実験は、主に3種類あります。多重追跡研究は、視野内で複数の物体を同時に追跡できることを実証し、瞬時認識研究は、少数の物体を効率的に数え上げるメカニズムの存在を示唆し、部分集合選択研究は、視覚シーンの特定の要素が他の要素とは独立して処理できることを示唆しています。これら3つのケースすべてにおいて、FINSTは観察された現象の説明を提供します。[7] [2]
複数物体追跡研究
複数物体追跡とは、被験者が視野内を移動する最大5つの対象物体の動きを同時に追跡する能力を指します。通常、対象物体は同数以上の同一の移動物体が存在する場合に限ります。この現象は1988年にPylyshynとStormによって初めて実証され[9]、その結果は広く再現されています(要約についてはPylyshyn, 2007を参照)。[ 10]
実験セットアップ
典型的な実験では、まず画面上に複数の同一物体(最大10個)が表示されます。これらの物体の一部(最大5個)がターゲットとして指定されます。ターゲットは通常、点滅したり、瞬間的に色を変えたりすることで指定されますが、その後、非ターゲット物体と区別がつかなくなります。その後、すべての物体は7秒から15秒間、画面上をランダムに動き回ります。被験者の課題は、物体の動きが止まった後、どの物体がターゲットであったかを特定することです。したがって、この課題を成功させるには、被験者はターゲット物体の動きを常に追跡し、妨害物を無視する必要があります。
結果
このような実験条件下では、被験者は複数の移動物体を同時に追跡できることが繰り返し確認されています。[7]一貫して高い成功率のターゲット追跡を観察することに加えて、研究者は被験者が以下のことができることを示しました。
- 遮蔽を受けた物体を追跡する[11] 、遮蔽中に軌道が変わった場合でも[12]
- 視点の変化に応じてオブジェクトを追跡する、[13] [14]
- 「物体」を追跡するのと同じくらい効果的に「穴」を追跡する、[15]
- 高速で移動する物体や視野の周辺部まで追跡する[16]
- 関連する練習や専門知識を身につけることで、複数の物体を追跡する能力が向上する。[17] [18]
FINSTの特徴的な特性は2つあり、その多様性と、視覚的に雑然としたシーン内を移動するインデックス付きオブジェクトを追跡する能力である。「このように、複数アイテム追跡研究は、FINST理論の直感に反する予測の一つ、すなわち、アイテムが隣接するアイテムと視覚的に区別できない場合や、アイテムの位置が絶えず変化している場合でも、視覚系によってアイテムの同一性が維持されるという予測を強く裏付けている。」[7]
瞬時に理解する研究
瞬時認識とは、少量の物を迅速かつ正確に数えることを指します。1871年のジェヴォンズの研究[19]に遡る数多くの研究において、被験者は、ディスプレイ上にランダムに提示された物体の数が5個程度以下の場合、その数量を非常に迅速かつ正確に報告できることが実証されています。数量が多い場合は、被験者は数えたり推定したりする必要がありますが(時間と正確さを犠牲にするため)、このような少量の場合は、異なる数え方が用いられるようです。1949年、カウフマン、ロード、リース、フォルクマンは、この現象を説明するために「瞬時認識」という用語を造語しました[20] 。
2023年に行われた、数字を判断する脳神経外科患者の内側側頭葉における単一ニューロン記録の研究では、4の数字付近のニューロン符号化の境界を持つ2つの別々の神経メカニズムの証拠が報告され、瞬時認識から推定への行動の移行と相関しており、ジェヴォンズの古い観察を裏付けています。[21] [22]
実験セットアップ
典型的な実験では、被験者はランダムに配置された多数のオブジェクトを含む画面を短時間(約100ミリ秒間)提示されます。被験者は、提示されたオブジェクトの数を報告します。提示されたオブジェクトの数は、1回の試行につき1個から数百個までの範囲となります。
結果
数え上げるべき項目の数が瞬時認識範囲内であれば、画面に表示される項目が1つ増えるごとに、合計応答時間は約40~120ミリ秒長くなります。瞬時認識範囲を超えると、表示される項目が1つ増えるごとに、合計応答時間は250~350ミリ秒長くなります(そのため、提示された項目の数と反応時間をプロットすると、「肘」型の曲線が形成されます)。研究者は一般的に、これを(少なくとも)2つの異なる数え上げ手法、つまり小さな数と大きな数に対応する手法が作用している証拠と捉えています。[23]
トリックとピリシン(1993)は、「瞬時認識は、特徴の検出とグループ化という空間的に並列なプロセスの後で、空間注意という連続的なプロセスの前に機能する、限られた能力を持つメカニズムによってのみ説明できる」と主張している。[23]言い換えれば、FINSTのようなメカニズムによってである。
サブセット選択研究
視覚索引理論の重要な仮定は、視野に入った項目が索引付けされると、その索引によって被験者はより高次の認知プロセスを経ることなく、その対象物に迅速にアクセスできるというものである。[2]この仮説を検証するために、バーケルとピリシン(1997)は、被験者がディスプレイ上の項目のサブセットを効果的に索引付けし、選択された項目のみを対象とした検索タスクを実行できるかどうかを検証する一連の実験を設計した。[24]
実験セットアップ
Burkell と Pylyshyn の実験では、2 種類の視覚探索のよく知られた違いを利用しました。
- 特徴探索とは、ターゲットとは一次元的に異なる妨害要素のフィールドの中から、ターゲットを特定することです。例えば、緑の妨害要素のフィールドの中に青い物体、あるいは円のフィールドの中に正方形などです。ターゲットとなる物体がディスプレイから「飛び出す」ように表示されるため、簡単に見つけられるため、特徴探索は迅速に実行されます。
- 結合探索では、妨害対象は対象と複数の次元を共有します。例えば、被験者は青い円と緑の四角形が並んだフィールドの中から青い四角形を見つけるように指示されることがあります。このタイプの探索は、対象が画面から「飛び出す」ことがないため、特徴探索よりもはるかに効率が悪くなります。被験者は対象を特定するために、それぞれの物体を個別に調べる必要があり、結果として反応時間が大幅に長くなります。[25]
実験設定は典型的な連想探索課題と同様です。15個の項目が画面上に提示され、それぞれ2色と2方向のいずれかで表示されます。これらの項目のうち3つは、出現が遅い(他の項目より後に現れる)ため、サブセットとして指定されます。サブセットには、目標項目と2つの妨害項目が含まれます。
この実験における重要な独立変数は、選択されたサブセットの性質です。場合によっては、サブセットは特徴探索セット、つまりターゲットと2つの妨害要素が1次元のみで異なるもので構成されます。また、サブセットは結合探索に相当するもので、ターゲットと妨害要素が両方の次元で異なるものとなる場合もあります。ディスプレイ全体にはターゲットと両方の次元で異なる項目が含まれているため、被験者が特徴探索サブセットに素早く反応した場合、これは彼らがターゲット識別の「ポップアウト」法を利用したことを示唆します。これはつまり、被験者が視覚探索をサブセット化された項目のみに適用したことを意味します。
結果
BurkellとPylyshynは、被験者がサブセット特徴探索条件において、サブセット結合探索条件よりもターゲットオブジェクトをより速く識別することを発見しました。これは、サブセット化されたオブジェクトが適切に優先順位付けされたことを示唆しています。言い換えれば、サブセットは「視覚系によって、あたかもそれらだけが存在しているかのように、いくつかの重要な方法でアクセスできた」ということです。[7]さらに、サブセット化されたオブジェクトのディスプレイ内での特定の位置は、被験者がそれらを探索する能力に影響を与えませんでした。たとえそれらが遠くに位置していたとしてもです。[24] WatsonとHumphreys (1997)も同様の結果を報告しています。[26]これらの結果は、視覚索引理論の予測と一致しています。FINSTは、サブセットが優先順位付けされる可能性のあるメカニズムを提供します。
参照
参考文献
- ^ abcde Pylyshyn, ZW (1989). 空間知覚における位置指標の役割:FINST空間指標モデルの概略. 認知, 32, 65–97.
- ^ abc Pylyshyn, ZW (2000). 世界における視覚の位置づけ. 認知科学の動向4,(5), 197-207.
- ^ abcdef Pylyshyn, ZW (2001). 視覚指標、前概念的対象、そして状況依存的視覚. 認知 80, 127-158.
- ^ Posner, MI, Snyder, CRR, Davidson, BJ (1980). 注意と信号の検出. 実験心理学ジャーナル: 一般, 第109巻, 第2号, 160-174ページ.
- ^ Posner, MI (1980). 注意の方向づけ. 実験心理学季刊誌, 32, 3–25.
- ^ Eriksen, CW and St. James, JD (1986). 焦点注意野内および焦点注意野周辺の視覚的注意:ズームレンズモデル. Perception & Psychophysics, 40 (4), 225-240.
- ^ abcde Pylyshyn, ZW (1994). 空間注意の原始的メカニズム. 認知50, 363–384.
- ^ ホフマン, DDおよびリチャーズ, WA (1984). 認識の構成要素. 認知18, 第1~3号, 65~96ページ.
- ^ Pylyshyn, ZW and Storm, R. (1988). 複数の独立したターゲットの追跡:並列追跡メカニズムの証拠. Spatial Vision. 3, 179–197.
- ^ Pylyshyn, ZW (2007). 複数物体追跡. Scholarpedia, 2(10):3326.
- ^ Scholl, BJとPylyshyn, ZW (1999). 遮蔽を介した複数アイテムの追跡:視覚的対象性への手がかり. 認知心理学, 38(2), 259-290.
- ^ Franconeri, S., Pylyshyn, ZW and Scholl, BJ (2007) 遮蔽物を通して複数の物体を追跡するための時空間的手がかり Visual Cognition, 14(1), 100-104.
- ^ Huff, M., Jahn, G., & Schwan, S. (2009). 急激な視点変化における複数物体の追跡. Visual Cognition, 17, 297-306.
- ^ Huff, M., Meyerhoff, H., Papenmeier, F., & Jahn, G. (2010). 動的シーンの空間更新:視点変化に伴う複数の不可視物体の追跡. Attention, Perception, & Psychophysics, 72, 628-636.
- ^ Horowitz, T., & Kuzmova, Y. (2011). 穴を追跡できるか? Vision Research, 51, 1013-1021.
- ^ Franconeri, S., Lin, J., Pylyshyn, Z., Fisher, B., & Enns, J. (2008). 複数物体追跡における速度制限に反する証拠. Psychonomic Bulletin & Review, 15, 802-808.
- ^ Allen, R., McGeorge, P., Pearson, DG, & Milne, AB (2004). 複数ターゲット追跡における注意と専門性. 応用認知心理学, 18, 337-347.
- ^ Green, CS Bavelier, D. (2006). 列挙と複数物体追跡:アクションビデオゲームプレイヤーの事例. 認知, 101, 217–245.
- ^ ジェヴォンズ, W. (1871). 数値識別の力. Nature, 3, 281–282.
- ^ Kaufman, EL, Lord, MW, Reese, TW, & Volkmann, J. (1949). 視覚的数の弁別. American Journal of Psychology, 62 (4), 498–525.
- ^ Kutter, Esther F.; Dehnen, Gert; Borger, Valeri; Surges, Rainer; Mormann, Florian; Nieder, Andreas (2023-10-02). 「ヒト内側側頭葉における小さな数と大きな数の明確な神経表現」 . Nature Human Behaviour . 7 (11): 1998– 2007. doi :10.1038/s41562-023-01709-3. ISSN 2397-3374.
- ^ Saplakoglu, Yasemin (2023年11月9日). 「なぜ人間の脳は小さな数字をより良く認識するのか」Quanta Magazine .
- ^ ab Trick. LM, & Pylyshyn, ZW (1993). 列挙研究が空間注意について示すもの:前注意処理の能力限界を示す証拠. Journal of Experimental Psychology: Human Perception and Performance. 10, 331-351.
- ^ ab Burkell, J. and Pylyshyn, ZW (1997) サブセットの探索:視覚的インデックス仮説の検証 Spatial Vision. 11, 225–258
- ^ Treisman, AM; Gelade, G (1980). 「注意の特徴統合理論」認知心理学12, 97–136.
- ^ Watson, DGとHumphreys, GW (1997). 視覚マーキング:古い物体に対するトップダウンの注意抑制による新しい物体の選択の優先順位付け. 心理学評論. 104, 90–122
外部リンク
- 典型的な複数オブジェクト追跡タスクの例については、Yale Perception and Cognition 研究所の Web ページを参照してください。