Webクエリ分類

ウェブクエリのトピック分類/カテゴリー化は、情報科学における問題です。このタスクは、ウェブ検索クエリを、そのトピックに基づいて1つ以上の定義済みカテゴリに割り当てることです。クエリ分類の重要性は、ウェブ検索が提供する多くのサービスによって強調されています。直接的な応用例としては、異なるカテゴリに興味を持つユーザーに対して、より適切な検索結果ページを提供することが挙げられます。例えば、「リンゴ」のようなウェブクエリを発行するユーザーは、果物であるリンゴに関連するウェブページが表示されることを期待するかもしれませんし、コンピュータ会社に関連する製品やニュースが表示されることを好むかもしれません。オンライン広告サービスは、クエリ分類結果を利用して、さまざまな製品をより正確に宣伝することができます。検索結果ページは、クエリ分類アルゴリズムによって予測されたカテゴリに従ってグループ化できます。しかし、クエリ分類の計算は容易ではありません。文書分類タスクとは異なり、ウェブ検索ユーザーが送信するクエリは通常、短く曖昧であり、また、クエリの意味は時間の経過とともに変化します。そのため、クエリトピック分類は、従来の文書分類タスクよりもはるかに困難です。

困難

Webクエリのトピック分類とは、クエリをいくつかの定義済みカテゴリに自動的に割り当てることです。従来のドキュメント分類タスクとは異なり、Webクエリの理解を阻害するいくつかの大きな問題があります。

Webクエリに適した特徴表現を導出する

多くのクエリは短く、クエリ用語にはノイズが多く含まれる傾向があります。[ここで「ノイズが多い」とはどういう意味か説明が必要です。 ]例えば、KDDCUP 2005データセットでは、3語を含むクエリが最も多く(22%)を占めています。さらに、クエリの79%は4語以下で構成されています。ユーザークエリは複数の意味を持つことがよくあります。例えば、「apple」は果物の種類やコンピューター会社を指す場合があり、「Java」はプログラミング言語やインドネシアの島を指す場合があります。KDDCUP 2005データセットでは、大多数のクエリに複数の意味が含まれています。したがって、クエリのキーワードのみを使用して分類用のベクトル空間モデルを構築することは適切ではありません。

クエリエンリッチメントに基づく手法[1] [2]は、検索エンジンを通じてユーザーのクエリをテキスト文書のコレクションにエンリッチメントすることから始まる。つまり、各クエリは、検索エンジンによって取得された上位ランクの検索結果ページのスニペットからなる擬似文書で表現される。その後、テキスト文書は、同義語ベースの分類器、またはナイーブベイズ(NB)やサポートベクターマシン(SVM)などの統計的分類器を用いて、対象カテゴリに分類される。

時間の経過とともに変化するクエリとカテゴリに適応する

クエリの意味も時間の経過とともに変化する可能性があります。そのため、古いラベル付きトレーニングクエリはすぐにデータ不足となり、役に立たなくなる可能性があります。分類器を時間の経過とともに適応的に動作させる方法が大きな課題となります。例えば、「バルセロナ」という単語は、2007年以前は都市やサッカークラブを指していましたが、現在はAMDの新しいマイクロプロセッサという意味を持つようになっています。したがって、この用語の意味の分布は、Web上での時間的な関数となっています。

中間タクソノミーに基づく手法[3]では、まずOpen Directory Project (ODP)などの中間タクソノミーに基づいて、オフラインモードでブリッジング分類器を構築します。この分類器はその後、オンラインモードで使用され、中間タクソノミーを介してユーザークエリをターゲットカテゴリにマッピングします。このアプローチの利点は、ブリッジング分類器のトレーニングは一度だけで済み、新しいターゲットカテゴリと入力クエリのセットごとに適応的に学習できることです。

ラベル付けされていないクエリログを使用してクエリの分類を支援する

クエリ分類のための手動でラベル付けされたトレーニングデータは高価であるため、大規模なウェブ検索エンジンのクエリログをラベルなしデータのソースとして活用し、自動クエリ分類を支援する方法が重要な課題となっています。これらのログは、ウェブユーザーが検索エンジンで情報を検索する際の行動を記録します。長年にわたり、クエリログはウェブユーザーのWorld Wide Webに関する知識を網羅した貴重なリソースとなっています。

クエリクラスタリング手法[4]は、「セッションデータ」をクラスタリングすることで、関連するクエリを関連付けようとします。セッションデータには、複数のクエリと単一のユーザーインタラクションからのクリックスルー情報が含まれます。この手法では、結果ドキュメントに含まれる、一連のクエリに共通する用語を考慮します。クエリキーワードとセッションデータを組み合わせることが、クエリクラスタリングを行う最も効果的な方法であることが示されています。

選択的選好に基づく手法[5]は、クエリ分類を支援するために、クエリ用語間の関連ルールを活用しようとします。トレーニングデータが与えられた場合、ラベル付きデータを用いた完全一致、ラベル付きデータを用いたNグラム一致、そして知覚に基づく分類器など、複数の分類手法を活用します。彼らは、計算言語学から応用された選択的選好と呼ばれる手法に重点を置いています。xとyがペア(x; y)を形成し、yがカテゴリcに属する場合、xを先頭とする他のすべてのペア(x​​; z)はcに属します。彼らはラベルなしのクエリログデータを使用してこれらのルールをマイニングし、いくつかのラベル付きクエリに対するアプローチの有効性を検証しました。

アプリケーション

  • メタ検索エンジンは、ユーザーのクエリを複数の検索エンジンに送信し、各検索エンジンの上位の検索結果を1つのリストにまとめます。検索エンジンは、Webユーザーのナビゲーションを容易にするために、発行されたクエリの潜在的なカテゴリに応じて、検索結果に表示される多数のWebページを整理することができます。
  • 垂直検索は、一般的な検索と比較して、特定の分野に焦点を当て、ニッチなユーザー層や専門職層の特定の情報ニーズに対応します。検索エンジンがウェブユーザーが探している情報のカテゴリを予測できるようになると、ユーザーに特定の垂直検索エンジンを明示的にアクセスさせることなく、特定の垂直検索エンジンを自動的に選択できるようになります。
  • オンライン広告[6] [7]は、ウェブユーザーの検索行動中に興味深い広告を提供することを目的としています。検索エンジンは、ウェブユーザーの興味関心に応じて関連性の高い広告を提供することで、ウェブユーザーは検索にかかる時間と労力を節約でき、広告主は広告費用を削減できます。

これらすべてのサービスは、Web クエリを通じて Web ユーザーの検索意図を理解することに依存しています。

参照

参考文献

  1. ^ Shen他「Q2C@UST:クエリ分類における我々の勝利のソリューション」ACM SIGKDD Exploration、2005年12月、第7巻、第2号
  2. ^ Shen他「Webクエリ分類のためのクエリエンリッチメント」ACM TOIS、第24巻第3号、2006年7月
  3. ^ Shen他「Webクエリ分類のためのブリッジの構築」ACM SIGIR、2006年
  4. ^ Wen他「ユーザーログを使用したクエリクラスタリング」、ACM TOIS、第20巻、第1号、2002年1月
  5. ^ Beitzel他「非常に大きなラベルなしクエリログを使用したWebクエリの自動分類」、ACM TOIS、第25巻、第2号、2007年4月
  6. ^ 広告のためのデータマイニングとオーディエンスインテリジェンス(ADKDD'07)、KDDワークショップ2007
  7. ^ オンライン広告のターゲティングとランキング(TROA'08)、WWWワークショップ2008

さらに読む

  • Shen. 「学習ベースのWebクエリ理解」。博士論文HKUST、2007年6月。
「https://en.wikipedia.org/w/index.php?title=Web_query_classification&oldid=1267164977」より取得