ポスティングリストは、情報検索(IR)システムでコーパスの索引情報を格納するために一般的に使用されるデータ構造です。これは、情報を迅速に検索する必要がある検索エンジンやデータベース管理システムの設計と効率化の中心となります
最低限、ポスティングリストは文書内の用語に関連付けられ、その用語が出現する場所を記録します。コーパス内の文書で見つかった各用語は、対応するポスティングリストにマッピングされ、そのリストには、その用語が出現する文書や、多くの場合、それらの文書内での位置などの情報が含まれています。[1]
構造
投稿リストは、投稿要素(投稿と呼ばれることもあります)で構成されています。各投稿には通常、以下のものが含まれます
- コーパス内のドキュメントを一意に識別するドキュメント識別子 (DocID)。
- 頻度情報 (用語頻度) は、用語がドキュメント内でどのくらい頻繁に出現するかを示します。
- 用語がテキスト内のどこに現れるかを示す位置情報。
- 追加のメタデータには、ドキュメントのタイトル、見出し、その他の関連するドキュメント固有の情報などのフィールドが含まれる場合があります。
投稿リストの正確な構造はアプリケーションによって異なり、リンク リスト、配列、またはスキップ リストなどのより複雑なデータ構造を使用して、さまざまな種類の検索を最適化します。
検索クエリの実行中、IR システムはクエリ内の各用語の投稿リストを取得し、どのドキュメントに用語が含まれているか、また用語の出現頻度と位置に基づいてそれらのドキュメントの関連性を判断します。
バリエーション
ポスティングリストのバリエーションには以下のものがあります。
- 転置索引:用語から文書を指すポスティングリストの形式
- 影響度順の投稿: 文書内の用語の重みまたは「影響」によって投稿が順序付けられているリスト。
- 位置投稿リスト: フレーズ クエリと近接検索の位置情報を含んだ拡張投稿リスト。
参考文献
- ^ ブッチャー、ステファン、クラーク、チャールズ、V. コーマック(2016年)。『情報検索:検索エンジンの実装と評価』 (MITプレス初版ペーパーバック版)。マサチューセッツ州ケンブリッジ、イギリス、ロンドン:MITプレス。ISBN 978-0-262-52887-0。