聴覚シーン分析

アルバート・ブレグマン、2011年

知覚心理物理学において、聴覚情景分析ASA)は聴覚知覚の基礎モデルとして提案されている。これは、人間の聴覚系が音を知覚的に意味のある要素に整理するプロセスとして理解されている。この用語は心理学者アルバート・ブレグマンによって造られた。[ 1 ]機械知覚 における関連概念は計算的聴覚情景分析(CASA)であり、これは音源分離ブラインド信号分離と密接に関連している。

ブレグマンの ASA モデルの 3 つの重要な側面は、セグメンテーション、統合、分離です。

背景

音は耳に到達し、鼓膜は全体として振動します。この信号は(何らかの方法で)分析する必要があります。ブレグマンのASAモデルは、音は「統合された」(音楽におけるハーモニーのように全体として聞こえる)か、個々の要素に「分離」(対位法につながる)するかのいずれかで聞こえると提唱しています。[ 2 ]例えば、ベルは「単一の」音(統合された)として聞こえますが、個々の要素を聞き分けることができる人もいます。つまり、音を分離できるのです。これは、和音で「色」として、あるいは個々の音符として聞こえる場合に当てはまります。人間の声楽器、通りを走る車などの自然音は、多くの周波数で構成されており、それらが音の知覚される質(音色など)に影響を与えます。2つ以上の自然音が同時に発生すると、同時に発生する音のすべての要素が、聞き手の耳に同時に、あるいは時間的に重なって聞こえます。これは、聴覚システムに問題を提示します。音のどの部分をグループ化し、同じ音源または物体の一部として扱うべきでしょうか? 誤ったグループ化を行うと、リスナーは元の要素の誤った組み合わせから作られた、存在しない音を聞くことになりかねません。

多くの場合、分離された要素は時間的に連結され、聴覚ストリームを生成します。この聴覚ストリームの能力は、いわゆるカクテルパーティー効果によって実証されます。ある程度までは、複数の声が同時に話されていたり、背景音が聞こえたりしている場合でも、他の声や背景音が存在していても、特定の声を追うことができます。[ 3 ]この例では、耳はこの声を他の音(統合されている)から分離し、心はこれらの分離された音を聴覚ストリームに「ストリーミング」します。これは音楽家、特に指揮者によって高度に発達したスキルであり、彼らは1つ、2つ、3つ、あるいはそれ以上の楽器を同時に聴き(分離し)、聴覚ストリームを通してそれぞれを独立したラインとして追うことができます。

グループ化とストリーム

ASAの根底には多くのグループ化の原理が見られるが、その多くはゲシュタルト心理学の学派によって発見された知覚組織化の原理に関連している。これらは、時間軸を跨いで作用する逐次的グループ化メカニズムと、周波数軸を跨いで作用する同時的グループ化メカニズムに大別できる。

  • 同時発音の誤りは、本来別々に聞こえるべき音が混ざり合うことにつながる可能性があり、混ざり合った音は、実際に受け取った音とは異なる知覚特性(ピッチや音色など)を持つことになります。例えば、2つの母音を同時に発音した場合、それらが分離されていると識別できないことがあります。[ 4 ]
  • 連続したグループ化の誤りにより、例えば、2つの異なる声に由来する音節から作られた単語が聞こえる可能性がある。[ 5 ] [ 6 ]

分離は主に知覚的な手がかりに基づくか、学習したパターンの認識(「スキーマベース」)に依存します。

ASAの役割は、入ってくる感覚情報をグループ化し、個々の音の正確な心的表現を形成することです。聴覚系によって音が他の共起する音列とは区別される知覚される一連の音列にグループ化されると、これらの知覚される一連の音列はそれぞれ「聴覚ストリーム」と呼ばれます。現実世界では、ASAがうまく機能すれば、ストリームは、人の話し声、ピアノの演奏、犬の吠え声など、時間の経過とともに持続するパターンを生成する個別の環境音源に対応します。しかし、実験室では、音の音響パラメータを操作することで、1つまたは複数の聴覚ストリームの知覚を誘発することが可能です。

聴覚シーン分析におけるストリーミング

その一例がストリーミング現象、別名「ストリーム分離」である。[ 7 ] 2つの音AとBを時間的に速く交互に鳴らすと、数秒後に知覚が「分割」されたように聞こえ、リスナーは1つの音の流れではなく2つの音の流れを聞くことになる。各流れは、例えばAAAA-などにBBBB-などが伴うなど、2つの音のうちの1つの繰り返しに対応する。別々の流れへの分離傾向は、音Aと音Bの音響特性の違いによって促進される。分離を促進することが古典的に示されている違いには、周波数(純音の場合)、基本周波数(複音の場合)、周波数構成、音源の位置の違いがある。しかし、2つのシーケンス間のほぼあらゆる体系的な知覚的違いは、シーケンスの速度が十分であれば 、ストリーミングを引き起こす可能性があることが示唆されている[ 8 ] 。

このストリーミングと周波数分離および速度の重要性を説明するインタラクティブな Web ページは、こちらにあります。

アンドラニク・タンジャンは、グループ化の現象はダイナミクスだけでなく静力学でも見られると主張している。例えば、和音の感覚は、物理的な因果関係ではなく、音響データ表現の効果である(実際、スピーカーの膜のような単一の物理的物体は複数の音の効果を生み出すことができ、和音として調律されたオルガンのパイプのような複数の物理的物体は単一の音の効果を生み出すことができる)。音楽音響学の観点からは、和音は、そのスペクトル(部分音(正弦波振動)の集合)が周波数軸に沿った単一音スペクトルの変位によって生成されると見なすことができる特殊な種類の音である。言い換えれば、和音の音程構造は、音によって描かれる音響的な輪郭である(ダイナミクスでは、多声部は音スペクトルの軌跡である)。これは情報理論によって正当化される。生成音が調和的(=ピッチが顕著)な場合、そのような表現は一意であり、記憶容量が最も少なく、つまりコルモゴロフの意味で最も複雑でないことが証明される。これは、和音が単一の複合音とみなされる場合も含め、他のすべての表現よりも単純であるため、和音は複合音として知覚される。生成音が鐘のような非調和的音である場合、音程構造は依然として音程が検出できないことさえある音スペクトルの変位として認識できる。この最適表現に基づく和音の定義は、とりわけ、絶対音感よりも音程感の優位性を説明する。[ 9 ] [ 10 ]

実験的根拠

異なるピッチの高音と低音の交錯といった、より複雑な音のパターンの分離については、多くの実験で研究されてきました。このような音列では、共起する音を別々のストリームに分離することが、音の聞こえ方に大きな影響を与えます。メロディーの知覚は、すべての音符が同じ聴覚ストリームにある場合により容易に形成されます。私たちは、同じストリームにある音符同士のリズムを聞き分け、他のストリームにある音符のリズムは聞き分けない傾向があります。タイミングの判断は、別々のストリームにある音符同士よりも、同じストリームにある音符同士の方が正確です。空間的な位置や音量の知覚さえも、連続的なグループ化の影響を受ける可能性があります。このテーマに関する初期の研究は成人を対象としていましたが、最近の研究では、新生児にもASA能力の一部が存在することが示されており、経験を通して習得されるものではなく、生まれつき備わっていることが示されています。また、他の研究では、ヒト以外の動物もASAを示すことが示されています。現在、科学者たちは ASA の根底にあるメカニズムを解明するために、大脳皮質の聴覚領域のニューロンの活動を研究しています。

参照

参考文献

  1. ^ Bregman, AS (1990). 『聴覚情景分析:音の知覚的組織化』 ケンブリッジ, マサチューセッツ州: MIT 出版. ISBN 9780262022972
  2. ^ライト、ジェームズ、アルバート・S・ブレグマン (1987). 「聴覚ストリーム分離とポリフォニック音楽における不協和音の制御」Contemporary Music Review . 2 (1): 63-92. doi : 10.1080/07494468708567054 .
  3. ^ミラー, GA (1947). 「スピーチのマスキング」.心理学速報. 44 (2): 105–129 . doi : 10.1037/h0055960 . PMID 20288932 . 
  4. ^ Assmann, PF; Summerfield, Q. (1990年8月). 「同時母音の知覚モデル化:異なる基本周波数を持つ母音」.アメリカ音響学会誌. 88 (2): 680– 697. Bibcode : 1990ASAJ...88..680A . doi : 10.1121/1.399772 . PMID 2212292 . 
  5. ^ Gaudrain, E.; Grimault, N.; Healy, EW; Béra, J.-C. (2007). 「スペクトルスミアリングが母音系列の知覚的分離に与える影響」 . Hearing Research . 231 ( 1–2 ): 32– 41. doi : 10.1016/j.heares.2007.05.001 . PMC 2128787. PMID 17597319 .  
  6. ^ Billig, AJ; Davis, MH; Deeks, JM; Monstrey, J.; Carlyon, RP (2013). 「聴覚ストリーミングに対する語彙的影響」 . Current Biology . 23 (16): 1585– 1589. Bibcode : 2013CBio...23.1585B . doi : 10.1016 / j.cub.2013.06.042 . PMC 3748342. PMID 23891107 .  
  7. ^ van Noorden, LPAS (1975).音列知覚における時間的コヒーレンス(PDF) (PhD). オランダ:アイントホーフェン工科大学. 2018年3月10日閲覧
  8. ^ Moore, BCJ; Gockel, HE (2012). 「聴覚ストリーム形成の特性」 . Philosophical Transactions of the Royal Society B: Biological Sciences . 367 (1591): 919– 931. doi : 10.1098/rstb.2011.0355 . PMC 3282308. PMID 22371614 .  
  9. ^ Tanguiane (Tangian), Andranick (1993).人工知覚と音楽認識. 人工知能講義ノート. 第746巻. ベルリン-ハイデルベルク: Springer. ISBN 978-3-540-57394-4
  10. ^ Tanguiane (Tanguiane), Andranick (1994). 「知覚の相関性の原理と音楽認識への応用」. Music Perception . 11 (4): 465–502 . doi : 10.2307/40285634 . JSTOR 40285634 .