| Information science |
|---|
| General aspects |
| Related fields and subfields |
クロスモーダル検索は情報検索のサブフィールドであり、テキスト、画像、音声、動画など、異なるデータモダリティ間で情報を検索・取得することを可能にします。[1] クエリと文書を同じモダリティ内で一致させる従来の情報検索システム(例:テキスト間検索)とは異なり、クロスモーダル検索は異なる種類のメディアを橋渡しすることで、より柔軟な情報アクセスを可能にします。[2] [3] [4]
概要
クロスモーダル検索は、クエリ文書と対象文書の種類が異なるシナリオに対応します。一般的な用途としては、以下のようなものがあります。
- テキストから画像への検索:テキスト記述を用いた画像の検索[1]
- 画像からテキストへの検索:画像クエリを使用して関連するテキスト文書またはキャプションを検索する[1]
- 音声からビデオへの検索:音声特性に基づいてビデオコンテンツを検索する[5]
- ビデオテキスト検索:ビデオコンテンツに関連するテキストの説明や文書を検索する[6]
技術的な課題
クロスモーダル検索にはいくつかの課題があります。
- 意味的ギャップ:異なるモダリティはそれぞれ異なる方法で情報を表します。テキストは離散的な記号表現を用いるのに対し、画像は連続的なピクセル値で構成され、音声はスペクトル特徴を用います。これらの異質な表現間で意味的な対応関係を確立することが、主要な課題です。
- 機能の異質性: 各モダリティには異なる低レベルの特徴と構造特性があり、適切な変換またはマッピング技術がなければ直接比較または照合することが困難になります。
アプローチ
現代のクロスモーダル検索システムでは、さまざまな技術が採用されています。
- 共通表現学習:最も一般的なアプローチは、異なるモダリティのアイテムが投影される共通の埋め込み空間を学習することです。この空間では、意味的に類似したアイテムは、元のモダリティに関係なく近くに配置されるため、類似性に基づく検索が可能になります。
- ニューラル ネットワーク アーキテクチャ: ディープラーニング モデル、特にビジョン言語トランスフォーマーと対照学習フレームワークは、大規模なマルチモーダル データセットから共同表現を学習できます。
- クロスモーダル注意メカニズム: アーキテクチャには、システムが別のモーダリティからの情報を処理する際に、あるモーダリティの関連部分に集中できるようにする注意メカニズムが組み込まれています。
アプリケーション
クロスモーダル検索には、次のような数多くの実用的な用途があります。
- マルチメディア検索エンジン
- コンテンツベースの推奨システム
- 臨床テキストを用いた医療画像検索
- デジタル図書館システム
- Eコマース製品検索
- ソーシャルメディアコンテンツの発見
参照
参考文献
- ^ abc Hendriksen, Mariya; Vakulenko, Svitlana; Kuiper, Ernst; de Rijke, Maarten (2023). 「シーン中心 vs. オブジェクト中心の画像・テキストクロスモーダル検索:再現性研究」. Kamps, Jaap; Goeuriot, Lorraine; Crestani, Fabio; Maistro, Maria; Joho, Hideo; Davis, Brian; Gurrin, Cathal; Kruschwitz, Udo; Caputo, Annalina (編).情報検索の進歩. コンピュータサイエンス講義ノート. 第13982巻. シュプリンガー・ネイチャー・スイス. pp. 68– 85. doi :10.1007/978-3-031-28241-6_5. ISBN 978-3-031-28240-9。
- ^ Gu, Jiuxiang; Cai, Jianfei; Joty, Shafiq; Niu, Li; Wang, Gang (2018). 「見て、想像して、マッチする:生成モデルによるテキストとビジュアルのクロスモーダル検索の改善」(PDF) . IEEE コンピュータビジョンおよびパターン認識会議論文集. ソルトレイクシティ、ユタ州、米国: IEEE. pp. 7181– 7189.
- ^ Jain, Aashi; Guo, Mandy; Srinivasan, Krishna; Chen, Ting; Kudugunta, Sneha; Jia, Chao; Yang, Yinfei; Baldridge, Jason (2021). 「MURAL: 言語間のマルチモーダル、マルチタスク表現」. Moens, Marie-Francine; Huang, Xuanjing; Specia, Lucia; Yih, Scott Wen-tau (編). Findings of the Association for Computational Linguistics: EMNLP 2021 . プンタカナ、ドミニカ共和国: Association for Computational Linguistics. pp. 3449– 3463. doi :10.18653/v1/2021.findings-emnlp.293. ISBN 978-1-955917-10-0。
- ^ Huang, Zhenyu; Niu, Guocheng; Liu, Xiao; Ding, Wenbiao; Xiao, Xinyan; Wu, Hua; Peng, Xi (2021). 「クロスモーダルマッチングのためのノイズ対応学習」.ニューラル情報処理システムの進歩. バンクーバー、カナダ:Curran Associates, Inc. pp. 29406– 29419.
- ^ Jin, Qin; Schulam, Peter Franz; Rawat, Shourabh; Burger, Susanne; Ding, Duo; Metze, Florian (2012). 「音声を用いたイベントベース動画検索」. Interspeech 2012. ポルトアレグレ, ブラジル: ISCA. pp. 2085– 2088. doi :10.21437/Interspeech.2012-556.
- ^ Fang, Han; Xiong, Pengfei; Xu, Luhui; Chen, Yu (2021). 「CLIP2Video: Image CLIPによるビデオテキスト検索のマスター」. arXiv : 2106.11097 [cs.CV].