3D音源定位とは、三次元空間における音源の位置を特定する音響技術を指します。音源の位置は通常、到来する音波の方向(水平方向と垂直方向)と音源とセンサー間の距離によって決定されます。これには、センサーの構造配置設計と信号処理技術が関係します。
ほとんどの哺乳類(ヒトを含む)は、両耳聴覚を用いて音源の位置を特定します。これは、両耳から受信した情報を比較し、相当量の合成を伴う複雑なプロセスを経て行われます。特に3次元空間では、片耳聴覚で音源の位置を特定するのは困難です。
テクノロジー
音源定位技術は、補聴器、監視[1]、ナビゲーションなど、一部のオーディオ・音響分野で利用されています。既存のリアルタイムパッシブ音源定位システムは、主に到達時間差( TDOA )アプローチに基づいており、音源定位は2次元空間に限定されており、騒音下では実用的ではありません。
アプリケーション

音源定位の応用としては、音源分離、音源追跡、音声強調などが挙げられます。ソナーは音源定位技術を用いてターゲットの位置を特定します。3D音源定位は、人間とロボットの効果的なインタラクションにも用いられます。ロボットによる聴覚への需要が高まるにつれ、ヒューマンマシンインターフェース、障害者支援、軍事用途など、3D音源定位の応用が検討されています。[2]
音源定位の手がかり
音源定位の手がかり[3]は、音源の定位を助ける特徴です。音源定位の手がかりには、両耳用手がかりと片耳用手がかりがあります。
- モノラルキューはスペクトル分析によって取得でき、通常は垂直方向の定位に使用されます。
- 両耳聴覚キューは、左右の耳の聴力差によって生成されます。これらの差には、両耳間時間差(ITD)と両耳間強度差(IID)が含まれます。両耳聴覚キューは主に水平方向の音源定位に使用されます。
音をローカライズするにはどうすればいいでしょうか?
私たちの聴覚が最初に使う手がかりは、両耳間の時間差です。目の前または後ろにある音源からの音は、両耳に同時に届きます。音源が左または右に移動すると、私たちの耳は同じ音源からの音を両耳に拾いますが、一定の遅延を伴います。言い換えれば、両耳が同じ信号の異なる位相を拾っているとも言えます。[4]
方法
3Dサウンドの定位には様々な方法があります。例えば:
- マイクロフォンアレイや両耳聴覚ロボットヘッドなどの様々なタイプのセンサー構造。 [5]
- ニューラル ネットワーク、最大尤度、複数信号分類(MUSIC)など、最適な結果を得るためのさまざまな手法。
- 音響ベクトルセンサー(AVS)アレイを用いたリアルタイム手法[6]
- スキャン技術[7]
- オフライン方式(適時性に応じて)
- マイクロフォンアレイアプローチ
ステアリングビームフォーマーアプローチ
このアプローチでは、8つのマイクと、信頼性加重位相変換(RWPHAT)によって強化されたステアリングビームフォーマーを組み合わせます。最終結果は、音源を追跡し、誤った方向検出を防ぐパーティクルフィルターによってフィルタリングされます。
この手法を使用する理由は、先行研究に基づいています。この手法は、サウンドトラッキングと音源定位が単一の音源にのみ適用されるにもかかわらず、複数の音源のトラッキングと音源定位に使用されます。
ビームフォーマーベースの音源定位
遅延加算型ビームフォーマーの出力エネルギーを最大化するために、あらゆる方向に指向されたビームフォーマーの出力の最大値を求める。信頼性加重位相変換(RWPHAT)法を用いると、Mマイク遅延加算型ビームフォーマーの出力エネルギーは
ここで、E はエネルギー、K は定数であり、信頼性加重位相変換によって定義される マイクロフォンペアの相互相関です。
重み係数は各周波数成分の信頼性を反映し、ウィーナーフィルタゲインとして定義されます。ここで、は、決定指向アプローチを使用して計算された、時間枠におけるマイクロフォンでの周波数の事前SNRの推定値です。 [8]
はマイクロフォン からの信号であり、はマイクロフォンへの到達遅延である。この方法のより具体的な手順は、ValinとMichaud [9]によって提案されている。
この方法の利点は、音の方向を検出し、音源までの距離を推定できることです。ビームフォーミング方式の主な欠点は、移動するスピーカーを使用するニューラルネットワーク方式と比較して、音源定位の精度と能力が不完全であることです。
コロケーテッドマイクロフォンアレイアプローチ
この手法は、音響ベクトルセンサー(AVS)アレイを用いたリアルタイム音源定位技術に関するものです。従来の音響センサーアレイは、伝播する音場における圧力情報と遅延のみを利用しますが、AVSアレイは音響粒子速度の3つの成分すべてと音圧を測定します。この追加情報を活用することで、AVSアレイは音源定位の精度を大幅に向上させることができます。
音響ベクトルアレイ

• 直交的に配置された 3 つの音響粒子速度センサー (X、Y、Z 配列として表示) と 1 つの全方向性音響マイク (O) が含まれています。
• 空気中[10]と水中の両方で一般的に使用されます。
• オフラインキャリブレーションプロセス[11]と組み合わせて使用することで、X、Y、Z、Oアレイのインパルス応答を測定および補間し、それらのステアリングベクトルを取得できます。
音響信号はまず長方形の窓を用いて窓処理され、得られた各セグメント信号がフレームとして生成されます。XYZOアレイから4つの並列フレームが検出され、DOA推定に使用されます。4つのフレームは均等なサイズの小さなブロックに分割され、ハミング窓とFFTを用いて各ブロックが時間領域から周波数領域に変換されます。このシステムの出力は、音源の水平角と垂直角で表され、これらは合成された3D空間スペクトルのピークとして求められます。
このアレイは、従来のマイクロホンアレイと比較して、開口径が小さくても高性能であり、複数の低周波音源と高周波音源を同時に定位できることが利点です。Oアレイを適用することで、振幅や時間差など、より多くの音響情報を得ることができます。さらに重要なのは、XYZOアレイは小型でありながら優れた性能を発揮することです。
AVS は、共存する複数のマイクロフォン アレイの一種であり、複数のアレイによって音の方向を推定する複数のマイクロフォン アレイ アプローチを使用し、異なるアレイが交差する場所で方向が検出される場所などの反射情報を使用して場所を見つけます。
高度なマイクロフォンアレイの目的
実際の環境では音の反射は常に発生し、マイクロホンアレイ[12]ではこれらの反射を避けることはできません。この複数アレイを用いたアプローチは、天井に固定されたアレイを用いてテストされましたが、移動シナリオでの性能はまだテストされていません。
マルチマイクアレイの適用方法を学ぶ
方向推定時には角度の不確実性(AU)が発生し、アレイと音源間の距離が長くなるにつれて位置の不確実性(PU)も増大します。以下のことが分かっています。
ここで、rはアレイ中心から音源までの距離、AUは角度の不確かさです。この測定は、2つの方向がある場所で交差するかどうかを判断するために使用されます。2本の線間の最小距離:
ここで、と は 2 つの方向、は検出された方向に平行なベクトル、 は配列の位置です。
もし
2本の線が交差していると判断されます。2本の線が交差している場合、以下の式を用いて音源の位置を計算できます。
は音源位置の推定値、は各方向が最短距離の直線と交差する位置、は重み係数です。重み係数として、アレイから最短距離の直線までの またはを用いました。
スキャン技術

スキャンベースの技術は、単一のセンサーと位置追跡システムのみを使用するため、時間的に定常な音源の位置を特定し、可視化するための強力なツールです。これを実現する一般的な方法の一つは、3D音響強度プローブとも呼ばれる音響ベクトルセンサー(AVS)と3Dトラッカーを組み合わせることです。
測定手順は、AVSセンサーを音源の周囲に手動で移動させながら、ステレオカメラを用いて3次元空間におけるセンサーの瞬間的な位置を抽出するというものです。記録された信号は複数のセグメントに分割され、空間離散化アルゴリズムを用いて複数の位置に割り当てられます。これにより、音圧と3つの直交する音響粒子速度の組み合わせを用いて、音場全体の音響変化のベクトル表現を計算することができます。
AVS分析の結果は、試験対象物の3Dスケッチ上に表示することができ、対象物または環境の3Dメッシュ周囲の音の分布を視覚的に表現します。これは、建築音響、騒音制御、音響工学など、様々な分野における音源の特定に役立ちます。音の分布と周囲環境との相互作用を詳細に把握できるためです。
両耳聴の学習法

両耳聴覚学習[5]はバイオニックな方法です。センサーは、2つのセンサーマイクと人工耳介(反射器)を備えたロボットダミーヘッドです。ロボットヘッドには2つの回転軸があり、水平方向と垂直方向に回転できます。反射器は、入ってくるホワイトノイズ音波のスペクトルを特定のパターンに変え、このパターンが垂直方向の定位の手がかりとして使用されます。水平方向の定位の手がかりはITDです。システムは、安定したホワイトノイズ音源でヘッドを回転させ、スペクトルを分析することにより、ニューラルネットワークを使用した学習プロセスを利用します。実験では、システムが特定の範囲の到来角度で音源の方向を適切に識別できることが示されています。範囲外の音は、反射器のスペクトルパターンが崩れるため識別できません。両耳聴覚は2つのマイクのみを使用し、複数のノイズ源の中から1つの音源に集中することができます。
頭部伝達関数(HRTF)
実際の音源定位では、2つの耳介に加えて、ロボットの頭部と胴体が機能的な役割を果たします。これは空間線形フィルタリングとして機能し、フィルタリングは常に頭部伝達関数(HRTF)によって定量化されます。[14] HRTFは、両耳聴覚モデルであるロボットの頭部センサーも使用します。HRTFは、音源定位のためのさまざまな手がかりに基づいて導出できます。HRTFを用いた音源定位は、HRTFに基づいて設計されたフィルタを用いて入力信号をフィルタリングすることです。ニューラルネットワークを使用する代わりに、頭部伝達関数が使用され、単純な相関アプローチに基づいて音源定位が行われます。
詳細については、「頭部伝達関数」を参照してください。
クロスパワースペクトル位相(CSP)解析
CSP法[15]も両耳モデルに用いられる。この手法の考え方は、2つのマイク間の到達時間遅延(TDOA)から到達角度を導き出し、CSPの最大係数を求めることでTDOAを推定するというものである。CSP係数は以下のように導出される。
ここで、 とはそれぞれマイクロフォンに入る信号とであり、
到着時間遅延( ) は次のように推定できます。
音源方向は
ここで、 は音の伝播速度、はサンプリング周波数、 は2 つのマイク間の最大時間遅延距離です。
CPS法は、HRTFに必要なシステムインパルス応答データを必要としません。また、期待値最大化アルゴリズムを用いて複数の音源を定位し、定位誤差を低減します。このシステムは、わずか2本のマイクで複数の移動音源を識別できます。
2Dセンサーラインアレイ

3次元空間における音源の位置を推定するために、2つのラインセンサアレイを水平方向と垂直方向に配置することができます。一例として、水中音源位置特定に使用される2Dラインアレイが挙げられます。[16] 2つのアレイからのデータを最大尤度法を用いて処理することで、音源の方向、距離、深度を同時に特定することができます。両耳聴モデルとは異なり、この手法はスペクトル解析法に似ています。この手法は、遠方の音源の位置特定に使用できます。
自己回転型バイマイクアレイ
2マイクアレイ(バイマイクアレイとも呼ばれる[17])を回転させると、3D環境に存在する静止音源の正弦波チャネル間時間差(ICTD)信号が得られる。得られた正弦波信号の位相シフトは音源の方位角に直接マッピングでき、ICTD信号の振幅は音源の仰角と2つのマイク間の距離の関数として表すことができる。[18]音源が複数ある場合、ICTD信号は複数の不連続正弦波形を形成するデータポイントを持つ。ランダムサンプルコンセンサス(RANSAC)やノイズを含むアプリケーションの密度ベース空間クラスタリング(DBSCAN)などの機械学習技術を適用することで、ICTD信号内の各不連続正弦波形の位相シフト(方位角へのマッピング)と振幅(仰角へのマッピング)を特定することができる。[19]
階層的ファジー人工ニューラルネットワークアプローチ

階層的ファジー人工ニューラルネットワークアプローチによる音源定位システムは、生物学的な両耳音源定位をモデルにしています。両耳と小さな脳を持つ原始的な動物の中には、3次元空間を認識し音を処理できるものもありますが、そのプロセスは完全には解明されていません。頭が小さいため、3次元音源定位が難しい動物もいます。さらに、カエルのように、コミュニケーション音の波長が頭の直径よりもはるかに大きい場合もあります。
階層型ファジー人工ニューラルネットワークシステムは、従来の両耳音源定位手法をベースに、両耳間時間差(ITDベース)と両耳間強度差(IIDベース)の音源定位手法を組み合わせることで、人間と同等の高精度な音源定位を実現します。階層型ファジー人工ニューラルネットワーク[20] は、人間の耳と同等の音源定位精度を目指して開発されました。
IIDベースまたはITDベースの音源定位手法には、前方後方混同と呼ばれる主要な問題があります。[21]この階層型ニューラルネットワークシステムに基づく音源定位では、この問題を解決するために、IID推定とITD推定を組み合わせています。このシステムは広帯域音源に使用され、非定常シナリオにも適用できます。
モノラル音源の3D音源定位
通常、音源定位は 2 つ (またはそれ以上) のマイクを使って行われます。2 つのマイクへの音の到着時間の差を利用することで、音源の方向を数学的に推定できます。しかし、マイクアレイが音源定位できる精度 (両耳間時間差を使用) は、基本的にアレイの物理的なサイズによって制限されます。アレイが小さすぎると、マイクの間隔が狭くなりすぎて、すべて本質的に同じ音 (ITF がほぼゼロ) を録音することになり、方向の推定が非常に難しくなります。したがって、マイクアレイの長さが数十センチメートル (デスクトップアプリケーションの場合) から数十メートル (水中での定位の場合) に及ぶことは珍しくありません。ただし、このサイズのマイクアレイは、小型ロボットで使用するのは非実用的になります。大型ロボットであっても、このようなマイクアレイは取り付けや操作が面倒な場合があります。対照的に、単一のマイク(非常に小型にすることが可能)を使用して音源の位置を特定する機能により、音源位置特定用のデバイスは大幅にコンパクトになり、コストと電力も削減される可能性があります。
従来のHRTFアプローチ
3D音像定位を実現する一般的な方法は、頭部伝達関数(HRTF)を用いることです。まず、2つの式を定式化することで、3D音像定位のためのHRTFを計算します。1つは与えられた音源からの信号を表し、もう1つは音源から伝達された音に対するロボットヘッドマイクからの出力を表します。モノラル入力データはこれらのHRTFによって処理され、結果はステレオヘッドホンから出力されます。この方法の欠点は、3D音像定位を実現するために、フィルタセット全体に多くのパラメトリック演算が必要であり、計算量が非常に大きくなることです。
3Dサウンド定位のDSP実装

組み込みDSPを用いたリアルタイム3D音像定位アプローチのDSPベース実装は、計算の複雑さを軽減することができる。図に示すように、このリアルタイムアルゴリズムの実装手順は、(i)周波数分割、(ii)音像定位、(iii)ミキシングの3つのフェーズに分かれている。モノラル音源の3D音像定位の場合、オーディオ入力データは左チャンネルと右チャンネルの2つに分割され、時系列のオーディオ入力データが次々に処理される。[22]
このアプローチの特徴は、可聴周波数帯域を 3 つに分割し、3 つのサブバンドそれぞれに 3D サウンド定位の異なる手順を利用できることです。
シングルマイクアプローチ
モノラル音源定位は、耳介(外耳)の構造によって可能になる。耳介は、入射角に応じて音を変化させる。機械学習のアプローチは、単一のマイクと「人工耳介」(方向依存的に音を歪ませる)のみを使用して、モノラル音源定位に適応されている。このアプローチは、自然音と人工音の典型的な分布、および耳介によって誘発される方向依存的な音の変化をモデル化する。[23]実験結果では、このアルゴリズムが、人間の話し声、犬の吠え声、滝、雷など、広範囲の音をかなり正確に定位できることも示されている。マイクアレイとは対照的に、このアプローチは、音源定位用のデバイスを大幅に小型化し、コストと電力を削減する可能性も提供する。
参照
参考文献
- ^ Keyrouz, Fakheredine; Diepold, Klaus; Keyrouz, Shady (2007年9月). 「監視アプリケーションのための高性能3Dサウンドローカリゼーション」. 2007 IEEE Conference on Advanced Video and Signal Based Surveillance. pp. 563–6 . doi :10.1109/AVSS.2007.4425372. ISBN 978-1-4244-1695-0. S2CID 11238184。
- ^ ケアー、ブリュエル。 「騒音源の特定」。bksv.com。ブリュエル&ケアー。
- ^ ゴールドスタイン、E.ブルース (2009年2月13日).感覚と知覚(第8版). Cengage Learning. pp. 293– 297. ISBN 978-0-495-60149-4。
- ^ ケアー、ブリュエル。 「3Dで聴く」。ブリュエル&ケアー。
- ^ ab 中島 秀; 向井 剛 (2005). 「両耳聴の学習に基づく3次元音源定位システム」. 2005 IEEE 国際システム・人間・サイバネティクス会議第4巻. pp. 3534– 3539. doi :10.1109/ICSMC.2005.1571695. ISBN 0-7803-9298-1. S2CID 7446711。
- ^ Liang, Yun; Cui, Zheng; Zhao, Shengkui; Rupnow, Kyle; Zhang, Yihao; Jones, Douglas L.; Chen, Deming (2012). 「GPUにおける3Dサウンドローカリゼーションのリアルタイム実装とパフォーマンス最適化」Automation and Test in Europe Conference and Exhibition : 832–5 . ISSN 1530-1591.
- ^ Fernandez Comesana, D.; Steltenpool, S.; Korbasiewicz, M.; Tijs, E. (2015). 「直接音響ベクトル場マッピング:3次元空間における3次元音響強度測定のための新たなスキャンツール」Euronoise Proceedings : 891– 895. ISSN 2226-5147.
- ^ Ephraim, Y.; Malah, D. (1984年12月). 「最小平均二乗誤差を用いた短時間スペクトル振幅推定器を用いた音声強調」. IEEE Transactions on Acoustics, Speech, and Signal Processing . 32 (6): 1109–21 . doi :10.1109/TASSP.1984.1164453. ISSN 0096-3518.
- ^ Valin, JM; Michaud, F.; Rouat, Jean (2006年5月14日~19日). 「ビームフォーミングとパーティクルフィルタリングを用いた音源の堅牢な3D定位と追跡」. 2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings . Vol. 4. p. IV. arXiv : 1604.01642 . doi :10.1109/ICASSP.2006.1661100. ISBN 978-1-4244-0469-8. ISSN 1520-6149. S2CID 557491.
- ^ ペレス・カボ、ダニエル;デ・ブリー、ハンス・エリアス。フェルナンデス・コメサーニャ、ダニエル。ソブレイラ・セオアネ、マヌエル。 「音響ベクトルセンサーのネットワークを使用した現実の高調波発生源の位置特定」。ユーロノイズ 2015。
- ^ Salas Natera, MA; Martinez Rodriguez-Osorio, R.; de Haro Ariet, L.; Sierra Perez, M. (2012). 「宇宙通信のための新しいアンテナアレイアーキテクチャと技術のキャリブレーション提案」. IEEE Antennas and Wireless Propagation Letters . 11 : 1129–32 . Bibcode :2012IAWPL..11.1129S. doi :10.1109/LAWP.2012.2215952. ISSN 1536-1225.
- ^ Ishi, CT; Even, J.; Hagita, N. (2013年11月). 「複数のマイクアレイと反射を用いた音源の3次元定位」. 2013 IEEE/RSJ 国際知能ロボット・システム会議. pp. 3937– 42. doi :10.1109/IROS.2013.6696919. ISBN 978-1-4673-6358-7. S2CID 16043629。
- ^ 「Lontra の LP2 コンプレッサーからの騒音放出の削減」。
- ^ Keyrouz, Fakheredine; Diepold, Klaus (2006). 「強化されたバイノーラル3Dサウンド定位アルゴリズム」. 2006 IEEE International Symposium on Signal Processing and Information Technology . pp. 662– 665. doi :10.1109/ISSPIT.2006.270883. ISBN 0-7803-9754-1. S2CID 14042947。
- ^ Hyun-Don Kim; Komatani, K.; Ogata, T.; Okuno,HG (2008年1月). 3D移動音生成ツールを用いた2チャンネル音源定位の評価. ICERI 2008. doi :10.1109/ICKS.2008.25.
- ^ Tabrikian,J. ; Messer,H. (1996年1月). 「導波管における3次元音源局在」. IEEE Transactions on Signal Processing . 44 (1): 1– 13. Bibcode :1996ITSP...44....1T. doi :10.1109/78.482007.
- ^ Gala, Deepak; Lindsay, Nathan; Sun, Liang (2018年7月). 「自己回転型バイマイクアレイを用いた無人地上ロボットのためのリアルタイムアクティブ音源定位」. Journal of Intelligent & Robotic Systems . 95 (3): 935– 954. arXiv : 1804.03372 . doi :10.1007/s10846-018-0908-3. S2CID 4745823.
- ^ Gala, Deepak; Lindsay, Nathan; Sun, Liang (2018年6月).自己回転型2マイクアレイを用いた無人地上車両のための3次元音源定位. CDSR 2018. doi : 10.11159/cdsr18.104 .
- ^ Gala, Deepak; Lindsay, Nathan; Sun, Liang (2021年10月).機械学習を用いた複数音源定位:自己回転型バイマイクアレイ搭載小型自律無人機向け. Journal of Intelligent & Robotic Systems . 第103巻第3号. arXiv : 1804.05111 . doi :10.1007/s10846-021-01481-4.
- ^ Keyrouz, Fakheredine; Diepold, Klaus (2008年5月). 「ロボットによる3D音源センシングのための、生物学的にインスパイアされた新しいニューラルネットワークソリューション」. Soft Computing . 12 (7): 721–9 . doi :10.1007/s00500-007-0249-9. ISSN 1432-7643. S2CID 30037380.
- ^ Hill, PA; Nelson, PA; Kirkeby, O.; Hamada, H. (2000年12月). 「仮想音響イメージングシステムにおける前後音場の混同の解消」. Journal of the Acoustical Society of America . 108 (6): 2901–10 . Bibcode :2000ASAJ..108.2901H. doi :10.1121/1.1323235. ISSN 0001-4966. PMID 11144583.
- ^ 坂本 憲明、小林 渉、尾上 孝雄、白川 功 (2001). 「モノラル音源のための3D音像定位アルゴリズムのDSP実装」ICECS 2001. 第8回IEEE国際電子回路・回路・システム会議 (カタログ番号01EX483) . 第2巻. pp. 1061– 1064. doi :10.1109/ICECS.2001.957673. ISBN 978-0-7803-7057-9. S2CID 60528168。
- ^ Saxena, A.; Ng, AY (2009). 「単一マイクからの音源位置の学習」. 2009 IEEE国際ロボティクス・オートメーション会議. pp. 1737– 1742. doi :10.1109/ROBOT.2009.5152861. ISBN 978-1-4244-2788-8. S2CID 14665341。
外部リンク
- 仮想音源の3次元定位
- 3D音響ベクトルセンサー(空気)