| シリーズの一部 |
| 心理学 |
|---|
視覚は、光を検出し、それを使用して周囲の環境の画像を形成する能力です。[ 1 ]画像形成を伴わない光検出は、光感知に分類されます。ほとんどの脊椎動物では、視覚は明所視(昼間の視力)または暗所視(夜間の視力)によって可能になり、ほとんどの脊椎動物は両方を備えています。視覚は、環境内の物体によって反射された、または光源から放射された可視スペクトルの光(光子)を検出します。可視光の範囲は、人間が容易に知覚できる範囲によって定義されますが、人間以外の視覚は、多くの場合、可視スペクトルを超えています。結果として得られる知覚は、視覚、視力、または視力(それぞれ形容詞visual、optic、ocular )としても知られています。視覚に関係するさまざまな生理学的要素は、総称して視覚システムと呼ばれ、言語学、心理学、認知科学、神経科学、および分子生物学における多くの研究の焦点であり、総称して視覚科学と呼ばれています。
視覚知覚は、私たちが何を見ているかだけでなく、脳がどのように情報を処理するかに関わっており、これは適応的であり、生涯にわたる経験と変化する認知能力の両方によって影響を受けます。[ 2 ] [ 3 ]
ほとんどの脊椎動物は、同様の視覚システムを通じて視覚を獲得しています。一般的に、光は角膜から眼に入り、水晶体によって眼の奥にある光に敏感な膜である網膜に焦点を合わせます。網膜の特殊な光受容細胞は変換器として機能し、光を神経インパルスに変換します。光受容体は、錐体細胞と桿体細胞に大別され、それぞれ明所視と暗所視を可能にします。これらの光受容体の信号は、視神経によって網膜から脳の中心神経節の上流に伝達されます。外側膝状体は情報を視覚皮質に伝達します。網膜からの信号は、網膜から上丘に直接伝達されることもあります。[ 4 ]
外側膝状体核は、一次視覚野(線条体皮質とも呼ばれる)に信号を送ります。線条体外皮質(視覚連合皮質とも呼ばれる)は、線条体皮質だけでなく、互いに情報を受け取る皮質構造の集合体です。[ 5 ]視覚連合皮質に関する最近の記述では、腹側経路と背側経路という2つの機能経路に分かれているとされています。この仮説は「 2つの流れの仮説」として知られています。
視覚認識における主な問題は、人が見るものが網膜刺激(網膜上の画像)の単なる翻訳ではなく、脳が取り込んだ基本情報を変化させるという点です。そのため、知覚に関心を持つ人々は長い間、視覚処理が実際に見えるものを作り出すために何をするのかを説明しようと苦心してきました。

視覚がどのように機能するかについて原始的な説明を与えた、 古代ギリシャの主要な学派が 2 つありました。
最初の説は視覚の「放射説」で、これは視覚は目から発せられた光線が視対象物に遮られることで生じるという説である。物体が直接見えるのは、目から発せられた「光線」が再び物体に当たることによってである。しかし、屈折した像も「光線」によって見える。光線は目から発せられ、空気中を横断し、屈折した後に可視物体に当たり、目から発せられた光線の動きの結果として視認される。この理論は、 ユークリッド光学とプトレマイオス光学の支持者であった学者たちによって支持された。
第二の学派は、視覚は対象を象徴する何かが眼に入ることから生じるとする、いわゆる「挿入」論を唱えた。その主要な提唱者であるアリストテレス(感覚について)[ 6 ]とその追随者[ 6 ]によって、この理論は視覚の本質に関する現代の理論といくらか接点を持つように思われるが、実験的根拠を欠いた憶測の域を出なかった。
挿入説の最も決定的な発展は、11世紀の学者イブン・アル=ハイサム(アルハゼン)の研究によるものである。彼は光学書(Kitāb al-Manāẓir、1021年頃)の中で、ユークリッドとプトレマイオスの外挿説と、アリストテレスの単なる推測に基づく説明の両方を否定した。体系的な実験を通じて、彼は視覚は物体から反射した光線が目に入り、水晶体によって網膜に焦点を合わせることで生じることを証明した。この経験的アプローチは転換点となった。アルハゼンは視覚を内挿という観点から初めて正しく説明しただけでなく[ 7 ]、ロジャー・ベーコン、ケプラー、そして最終的にはニュートンといった後のヨーロッパの学者に影響を与える実験手法も導入した。[ 8 ] [ 9 ]
どちらの学派も「類は類によってのみ知られる」という原理に基づき、目は「内なる火」から成り、それが可視光線という「外なる火」と相互作用して視覚を可能にするという概念に基づいていた。プラトンは対話篇『ティマイオス』(45bおよび46b)においてこの主張を展開しており、エンペドクレスも同様の主張を行っている(アリストテレスが『感覚について』(DK断片B17)で伝えている)。[ 6 ]

アルハゼン(965年 - 1040年頃)は、視覚に関する多くの調査と実験を行い、プトレマイオスの両眼視に関する研究を拡張し、ガレノスの解剖学的著作について注釈を付けました。[ 10 ] [ 11 ]彼は、光が物体に反射して目に向けられるときに視覚が発生することを初めて説明しました。[ 12 ]
レオナルド・ダ・ヴィンチ(1452–1519)は、目の特殊な光学的性質を初めて認識した人物と考えられています。彼は「人間の目の機能は…多くの著者によって特定の方法で説明されてきた。しかし、私はそれが全く異なることを発見した」と記しています。彼の主要な実験的発見は、視線、すなわち中心窩で終わる光学的な線においてのみ、明瞭で明確な視界が存在するというものでした。彼はこれらの言葉を文字通りに使用したわけではありませんが、実際には中心視と周辺視という現代的な区別の父と言えるでしょう。[ 13 ]
アイザック・ニュートン(1642年 - 1726年/27年)は、プリズムを通過する光のスペクトルの個々の色を分離する実験を通じて、物体の視覚的に知覚される色は物体が反射する光の性質によって現れ、これらの分割された色は他の色に変換することができないことを初めて発見しました。これは当時の科学的予想に反していました。[ 14 ]
ヘルマン・フォン・ヘルムホルツは、視覚に関する最初の近代的研究の立役者と称されることが多い。ヘルムホルツは人間の目を研究し、人間の目は高品質の像を生成できないという結論を下した。情報不足が視覚を不可能にしているように思われた。そのため、彼は視覚は何らかの形の「無意識の推論」の結果に他ならないと結論付け、1867年にこの言葉を造語した。彼は、脳は過去の経験に基づき、不完全なデータから仮定や結論を下していると主張した。[ 15 ]
推論には世界についての事前の経験が必要です。
視覚的な経験に基づくよく知られた仮定の例は次のとおりです。
視覚的錯覚(推論プロセスが誤った場合) の研究により、視覚システムがどのような仮定を行うかについて多くの洞察が得られました。
確率に基づく別のタイプの無意識推論仮説が、いわゆるベイズ視覚研究において最近復活した。[ 17 ]このアプローチの支持者は、視覚システムが感覚データから知覚を導き出すために何らかの形のベイズ推論を実行すると考えている。しかし、この見解の支持者が、ベイズ方程式に必要な関連確率を原理的にどのように導き出すのかは明らかではない。この考えに基づくモデルは、動きの知覚、奥行きの知覚、図地知覚など、さまざまな視覚知覚機能を説明するために使用されてきた。[ 18 ] [ 19 ]「完全に経験的な知覚理論」は、ベイズ形式主義を明示的に援用することなく視覚知覚を合理化する、関連した新しいアプローチである。
1930年代から1940年代にかけて主に活動していたゲシュタルト心理学者は、今日の視覚科学者が研究している多くの研究課題を提起しました。[ 20 ]
ゲシュタルト法則は、視覚的要素を多くの異なる部分ではなく、組織化されたパターンまたは全体として認識する仕組みを研究する上で重要な役割を果たしてきました。「ゲシュタルト」とはドイツ語で、「構成またはパターン」と「全体または創発的な構造」を部分的に翻訳したものです。この理論によれば、視覚システムが要素を自動的にパターンにグループ化する仕組みを決定する主な要因は8つあります。近接性、類似性、閉鎖性、対称性、共通の運命(つまり共通の動き)、連続性、そして良好なゲシュタルト(規則的で単純かつ秩序のあるパターン)、そして過去の経験です。[ 21 ]
ジョージ・バークリーの足跡をたどり、オーストラリアの哲学者コリン・マレー・ターベインは、ユークリッドの時代以来、視覚認識の古典的な「幾何学モデル」の側面が不必要に視覚の理解を曇らせてきたと主張し、視覚認識の古典的な「幾何学モデル」に代わるモデルを支持した。彫刻家ナウム・ガボの言葉を引用し、彼はこう述べている。「線、形、色、動きはそれぞれ独自の言語を持っているが、読むには時間がかかる。見るだけでは不十分だ。見なければならない。そして「見る」ことは「読む」ことを意味する。 」 [ 22 ]トゥルバインは、「言語モデルは、我々がどのように見るかというこの古くからの問題を独特な形で解明し、その偉大なライバルによって薄暗く照らされている暗い領域に明るい光を当てる」と主張した。[ 23 ]特に彼は、視覚を純粋に機械論的に説明することに限界があることを強調し、そのような言語モデルに見られる用語を用いることで、いくつかの「視覚的錯覚」の事例をより適切に説明できると主張した。これを念頭に、彼は「バロヴィアン事例」、「水平の月」、「反転した網膜像」といった視覚的歪みの具体的な事例の比較分析を提示した。[ 24 ] [ 25 ] [ 26 ]

1960年代には技術の発達により、読書中[ 27 ]、絵画鑑賞中[ 28 ]、さらに視覚的な問題解決中[ 29 ] 、そしてヘッドセットカメラが利用可能になると運転中[ 30 ]の眼球運動を連続的に記録することが可能になった。
右の図は、視覚検査の最初の2秒間に何が起こるかを示しています。背景は周辺視野を表し、焦点が合っていない状態ですが、最初の眼球運動は男性のブーツに向かいます(これは、最初の注視点に非常に近く、適度なコントラストがあるためです)。眼球運動は注意選択、つまり脳によるより深い処理のために、すべての視覚入力の一部を選択する機能を果たします。 [ 31 ]
以下の注視は顔から顔へと飛び移り、顔同士の比較さえ可能にするかもしれない。[ 32 ]
アイコンの顔は、周辺視野において非常に魅力的な検索アイコンであると結論付けられるでしょう。中心窩視は、周辺視野における第一印象に詳細な情報を追加します。
眼球運動には、固視眼球運動(マイクロサッカード、眼球移動、振戦)、輻輳運動、衝動性眼球運動、追従運動など、様々な種類があることも注目すべき点です。固視は、眼球が静止している比較的静的な点です。しかし、眼球は完全に静止することはなく、視線の位置は移動します。これらの移動は、マイクロサッカードと呼ばれる非常に小さな固視眼球運動によって補正されます。輻輳運動では、両眼が協力して、両方の網膜の同じ領域に像を置きます。その結果、単一の焦点の合った像が得られます。衝動性眼球運動は、ある位置から別の位置へジャンプするタイプの眼球運動で、特定の場面/画像を素早くスキャンするために使用されます。最後に、追従運動は滑らかな眼球運動で、動いている物体を追うために使用されます。[ 33 ]
顔認識と物体認識は異なるシステムによって行われているという証拠は数多く存在する。例えば、相貌失認患者は顔認識に障害を示すものの、物体認識には障害が見られない。一方、物体認識失認患者(特にCK患者)は、物体認識に障害を示すものの、顔認識には障害が見られる。[ 34 ]行動学的には、物体認識ではなく顔認識が反転効果の影響を受けることが示されており、顔認識は「特別」であるという主張につながっている。[ 34 ] [ 35 ]さらに、顔認識と物体認識は異なる神経系を必要とする。[ 36 ]注目すべきことに、人間の脳が顔認識に特化しているように見えるのは、真の領域特異性を反映しているのではなく、むしろ特定の刺激クラスにおける専門家レベルの識別という、より一般的なプロセスを反映していると主張する者もいる。 [ 37 ]ただし、この後者の主張は大きな議論の対象となっている。Doris Tsaoらは、fMRIと電気生理学を用いて、マカクザルの顔認識における脳領域とメカニズムを解明した。 [ 38 ]
下側頭葉皮質は、異なる物体の認識と区別において重要な役割を果たします。MITの研究によると、IT皮質のサブセット領域が異なる物体を担っていることが示されています。[ 39 ]皮質の多数の小さな領域の神経活動を選択的に遮断することで、動物は特定の物体の組み合わせを区別できなくなります。これは、IT皮質がそれぞれ異なる視覚的特徴に反応する領域に分かれていることを示しています。同様に、皮質の特定のパッチや領域は、他の物体認識よりも顔認識に深く関与しています。
いくつかの研究では、脳が画像内の物体を認識する必要があるときには、均一な全体画像ではなく、物体の特定の特徴や関心領域が重要な要素となる傾向があることが示されています。[ 40 ] [ 41 ]このように、人間の視覚は、物体のエッジの乱れ、質感の変化、画像の重要な領域における小さな変化など、画像に対する小さな特定の変化に対して脆弱です。[ 42 ]
長期の失明後に視力が回復した人々を対象とした研究では、物体や顔を認識できないことが明らかになっています(色、動き、単純な幾何学的形状は認識できません)。幼少期に失明したために、これらの高次機能に必要な視覚系の一部が適切に発達できなかったという仮説もあります。[ 43 ]臨界期は5歳か6歳まで続くという一般的な考えは、2007年の研究によって疑問視され、年齢の高い患者は長年の視力検査を受けることでこれらの能力を向上させることができることが明らかになりました。[ 44 ]
1970年代、デイヴィッド・マーは視覚の多段階理論を提唱し、視覚のプロセスを様々な抽象レベルで分析しました。視覚における具体的な問題の理解に焦点を当てるため、マーは計算レベル、アルゴリズムレベル、実装レベルという3つの分析レベルを特定しました。トマゾ・ポッジョをはじめとする多くの視覚科学者がこれらの分析レベルを採用し、計算論的観点から視覚をさらに特徴づけるために用いています。[ 45 ]
計算レベルでは、視覚システムが克服しなければならない問題を、高い抽象度で扱います。アルゴリズムレベルでは、これらの問題を解決するための戦略を特定しようとします。最後に、実装レベルでは、これらの問題に対する解決策が神経回路でどのように実現されるかを説明しようとします。
マーは、視覚をこれらのどのレベルにおいても独立して研究することが可能であると示唆した。マーは、視覚を網膜上の二次元視覚配列から、出力としての三次元世界の記述へと進むものと説明した。彼の視覚の段階は以下の通りである。
マールの2 1⁄2次元スケッチは、奥行きマップが構築され、このマップが3次元形状知覚の基礎となることを前提としている。しかし、立体視と絵画的知覚、そして単眼視の両方から、3次元形状の知覚は点の奥行き知覚に先行し、それに依存するものではないことが明らかである。予備的な奥行きマップが原理的にどのように構築されるのか、またそれが図地構成、あるいはグループ化の問題にどのように対処するのかは明らかではない。マールが見落としていた、両眼で見た3次元物体から3次元形状知覚を生成する際の知覚構成制約の役割は、例えば3次元ワイヤー物体の場合に経験的に実証されている[ 47 ] [ 48 ] 。より詳細な議論については、ピズロ(2008)を参照のこと。[ 49 ]
より最近の、別の枠組みでは、視覚はエンコード、選択、デコードという3段階ではなく、3つの段階から構成されると提唱されている。[ 50 ]エンコードとは、視覚入力をサンプリングして表現すること(例えば、視覚入力を網膜の神経活動として表現すること)。選択、あるいは注意選択とは、入力情報のごく一部を選択してさらに処理すること(例えば、視線をある物体または視覚位置に動かして、その位置の視覚信号をよりよく処理すること)である。デコードとは、選択された入力信号を推測または認識すること(例えば、視線の中心にある物体を誰かの顔として認識すること)である。この枠組みでは、[ 51 ]注意選択は視覚経路に沿った一次視覚野から始まり、注意の制約によって、視覚認識またはデコードの中心視野と周辺視野 の間に二分法が課せられる。
変換は、環境刺激からのエネルギーが神経活動に変換されるプロセスです。網膜には、光受容層、双極細胞層、神経節細胞層の3つの異なる細胞層があります。変換が起こる光受容層は、水晶体から最も遠いです。この層には、桿体と錐体と呼ばれる、感度の異なる光受容体があります。錐体は色の知覚を担い、赤、緑、青の3つの異なる種類があります。桿体細胞は、暗い場所にある物体の知覚を担っています。[ 52 ]光受容体には、光色素と呼ばれる特殊な化学物質が含まれており、これはラメラの膜に埋め込まれています。人間の桿体1つには、約1000万個の光色素が含まれています。光色素分子は、オプシン(タンパク質)とレチナール(脂質)の2つの部分で構成されています。[ 53 ]可視光のスペクトル全体に反応する3つの特定の光色素(それぞれ独自の波長感度を持つ)があります。適切な波長(特定の光色素が感受性を持つ波長)が光受容体に当たると、光色素は2つに分裂し、双極細胞層に信号を送ります。双極細胞層はさらに神経節細胞に信号を送り、神経節細胞の軸索が視神経を形成し、情報を脳に伝達します。遺伝子異常により特定の錐体細胞が欠損または異常な場合、色覚異常(色盲と呼ばれることもあります)が発生します。[ 54 ]
変換には、光受容器から双極細胞、そして神経節細胞に送られる化学メッセージが関与しています。複数の光受容器が、1 つの神経節細胞に情報を送ることがあります。神経節細胞には、赤/緑と黄/青の 2 種類があります。これらのニューロンは、刺激を受けていないときでも絶えず発火しています。これらのニューロンの発火頻度が変化すると、脳はさまざまな色 (および大量の情報とともに画像) を解釈します。赤色光は赤色錐体を刺激し、赤色錐体は赤色/緑色神経節細胞を刺激します。同様に、緑色光は緑色錐体を刺激し、緑色錐体は緑色/赤色神経節細胞を刺激し、青色光は青色錐体を刺激し、青色錐体は青色/黄色神経節細胞を刺激します。神経節細胞の発火頻度は、一方の錐体からの信号によって増加し、もう一方の錐体からの信号によって減少 (抑制) します。神経節細胞名の最初の色は、神経節細胞を興奮させる色で、2 番目は神経節細胞を抑制する色です。例えば、赤色錐体は赤色/緑色神経節細胞を興奮させ、緑色錐体は赤色/緑色神経節細胞を抑制する。これは拮抗的なプロセスである。赤色/緑色神経節細胞の発火頻度が増加すると、脳は光が赤色であると認識し、発火頻度が減少すると、脳は光が緑色であると認識する。[ 54 ]
人工視覚はレベルアップしており、機械にシーンを理解するように教え、物体を見つけるだけでなく、視覚に関するストリートスマートさを与えています。[ 55 ]
視覚知覚に関する理論と観察は、コンピュータービジョン(マシンビジョン、あるいは計算視覚とも呼ばれる)の主要なインスピレーションの源となっています。特殊なハードウェア構造とソフトウェアアルゴリズムにより、機械はカメラやセンサーから送られてくる画像を解釈する能力を獲得します。