TrustRankは、リンク分析を行い、有用なウェブページとスパムを区別するアルゴリズムです。検索エンジンがSERP(検索エンジン結果ページ)でページをランク付けするのに役立ちます。これは半自動プロセスであるため、適切に機能するにはある程度の人間の支援が必要です。検索エンジンは、ウェブページの品質を測定する際に、様々なアルゴリズムとランキング要因を使用しています。TrustRankもその一つです。
インターネットを人手でレビューするのは非現実的かつ非常にコストがかかるため、この作業をより迅速かつ安価に実現するためにTrustRankが導入されました。TrustRankは、スタンフォード大学の研究者Zoltan Gyongyi氏とHector Garcia-Molina氏、そしてYahoo!のJan Pedersen氏によって、2004年に論文「Combating Web Spam with TrustRank」の中で初めて導入されました。[ 1 ]現在、このアルゴリズムはYahoo!やGoogleなどの主要なウェブ検索エンジンに採用されています。[ 2 ]
ウェブ検索エンジンが結果を返す際にウェブページの品質を判断する上で最も重要な要素の一つは、バックリンクです。検索エンジンは、検索結果ページで特定のウェブページの順位を決定する際に、バックリンクの数と品質を考慮します。多くのウェブスパムページは、検索エンジンを欺くことのみを目的として作成されています。これらのページは主に商業目的で作成され、検索エンジンの検索結果ページで本来よりも高いランキングを得るために、様々な手法が用いられています。人間の専門家はスパムを簡単に識別できますが、検索エンジンは人間の助けを借りずにスパムを識別できるよう、日々改良が続けられています。
ランキングを向上させるための一般的な方法の一つは、複雑なリンクスキームを通じて文書の認識される重要性を高めることです。Google のPageRankをはじめとする検索ランキングアルゴリズムは、こうした操作の対象となってきました。
TrustRankは、信頼性に基づいてウェブをフィルタリングすることでスパム対策を講じます。この手法では、専門家による評価を受ける少数のシードページを選定します。信頼できるシードページが手動で特定されると、シードセットから外側へクロールが広がり、同様に信頼性が高く信頼できるページが探し出されます。TrustRankの信頼性は、ドキュメントとシードセットの距離が離れるほど低下します。
この論理は逆の方向にも作用し、これは「アンチトラストランク」と呼ばれます。サイトがスパムリソースに近いほど、スパムである可能性が高くなります。[ 3 ]
TrustRank 手法を提案した研究者たちは、スパム量の測定など、関連トピックを評価することで研究をさらに改良し続けています。
参照
- PageRank – Google検索がウェブページの順位付けに使用するアルゴリズム
- CheiRank
- 敵対的情報検索 - データセットにおける情報検索戦略
- ヒルトップアルゴリズム – ニュース検索アルゴリズム
- HITSアルゴリズム – ウェブページのリンク分析アルゴリズム
- スパムデクシング – 検索エンジンのインデックスを意図的に操作する
参考文献
- ^ Gyongyi, Zoltan; Garcia-Molina, Hector (2004). TrustRankによるウェブスパム対策(PDF) . 第30回VLDBカンファレンス議事録. カナダ、トロント. 2022年5月26日閲覧
- ^ 7603350、Guha、Ramanathan、「米国特許:7603350 - 信頼に基づく検索結果のランキング」、2009年10月13日発行
- ^ Krishnan, Vijay; Raj, Rashmi. 「Anti-Trust RankによるWeb Spam Detection」(PDF) . スタンフォード大学. 2015年1月11日閲覧。
外部リンク
- Z. Gyöngyi、H. Garcia-Molina、J. Pedersen:TrustRankによるウェブスパム対策
- リンクベースのスパム検出Yahoo! が TrustRank を使用した特許出願