Google パーソナライズド検索は、2004 年に導入された Google 検索のパーソナライズ検索機能です。Google 検索でのすべての検索は、ブラウザの Cookie レコードに関連付けられます。[ 1 ]ユーザーが検索を実行すると、検索結果は検索語句と各ウェブページの関連性だけでなく、ユーザー(または同じブラウザを使用している他のユーザー)が以前の検索結果を通じてどのウェブサイトにアクセスしたかに基づいて表示されます。[ 1 ]これにより、よりパーソナライズされたエクスペリエンスが提供され、特定のユーザーにとって検索結果の関連性が高まります。このようなフィルタリングには、フィルターバブルの作成などの副作用もあります。
Googleの検索アルゴリズムは近年変更され、ユーザーデータの重要性が低下したため、パーソナライズ検索が検索結果に与える影響は限定的になっています。批判を受けて、Googleはこの機能を無効にすることも可能にしました。
パーソナライズ検索は、2004年3月29日にGoogle Labsプロジェクトのベータテストとして初めて導入されました。2005年4月20日には、ベータ版ではないサービスとして提供が開始されましたが、通常のGoogle検索とは別のサービスでした。2005年11月11日には、通常のGoogle検索の一部となりましたが、Googleアカウントを持つユーザーのみが利用できるようになりました。
2009 年 12 月 4 日より、Google アカウントにログインしていないユーザーも含め、Google 検索のすべてのユーザーにパーソナライズ検索が適用されました。
Googleは、Googleアカウントに関連付けられた個人の行動や興味に基づいて検索結果をカスタマイズする機能に加え、2009年10月には、ユーザーの知り合いに基づいたソーシャル検索結果も導入しました。これは、ユーザーの知り合いが同様の興味を持っているという前提に基づいており、ユーザーの「ソーシャルサークル」内のサイトのランキングを上昇させる効果がありました。これら2つのサービスは2011年2月までに通常の検索結果に統合され、ソーシャルネットワークを通じて知り合ったユーザーと共有されたコンテンツも検索結果に含めることで、検索結果を拡張しました。
Googleの検索アルゴリズムは、ウェブ履歴を収集し、データベースに保存することで動作します。認証されていないユーザーの場合、Googleはユーザーのブラウザに匿名で保存されたブラウザCookieを参照し、その固有の文字列をGoogleデータベースに保存されている文字列と比較します。Google ChromeにログインしているGoogleアカウントは、ユーザーのウェブ履歴を使用して、ユーザーが好むサイトやコンテンツを学習し、それに基づいて検索結果を表示します。ユーザーが提供するデータを使用して、GoogleはGoogleサービスでの過去の行動に基づいて、性別、年齢、言語、興味関心などのプロフィールを構築します。[ 2 ]
ユーザーがGoogleで検索を行うと、キーワードや用語に基づいてPageRankアルゴリズムに基づいてランキングされた結果が生成されます。Googleによると、このアルゴリズムは「リンク投票を集計し、それに基づいてどのページが最も重要かを判断するシステムです。これらのスコアは、他の多くの要素と組み合わせて、ページが検索で上位に表示されるかどうかを決定するために使用されます。」PageRankは、膨大なリンク構造を個々のページの価値の指標として用いることで、ウェブ特有の民主的な性質を利用しています。本質的に、GoogleはページAからページBへのリンクを、ページAがページBに投票したと解釈します。しかし、Googleはページが受け取る投票数やリンクの数だけでなく、はるかに多くの要素を考慮します。例えば、投票したページも分析します。それ自体が「重要」なページからの投票はより大きな重みを持ち、他のページを「重要」にする役割を果たします。これらの要素やその他の要素を用いて、Googleはページの相対的な重要性に関する見解を示しています。」[ 3 ]
検索部門が2005年にカスタマイズされた検索結果を備えた最初のバージョンをリリースし、過去に訪問したサイトを考慮し始めて以来、検索結果を絞り込むための新たな要素が追加されてきました。Googleによると、長年にわたるテストの結果、ユーザーにとって関連性のある結果を判断する上で比類のない優れた指標は、ユーザーデータではなく検索フレーズそのものであり、検索結果のパーソナライズは以前ほど大きな要素ではないという結論に至っています。[ 4 ]
ハーバード大学法学教授ジョナサン・ジットレインは、パーソナライゼーションフィルターがGoogle検索結果をどの程度歪めているかについて異議を唱え、「検索パーソナライゼーションの影響は軽微だ」と述べた。[ 5 ]さらに、Googleはユーザーが希望すればパーソナライゼーション機能をオフにできる機能を提供している。[ 6 ]具体的には、 Googleの検索履歴の記録を削除し、今後は検索キーワードや訪問したリンクをGoogleに記憶させないように設定している。
検索結果を決定する要素(Googleでは「シグナル」と呼びます)は50以上あります。検索結果をパーソナライズする上で最も重要な要素は次のとおりです。
これらの変数はそれぞれ、ユーザーの検索結果のパーソナライズに影響し、ユーザーが尋ねている質問に最も関連性の高い結果を迅速に提供することが期待されます。[ 7 ]
位置情報データにより、GoogleはAndroidスマートフォンのGPS位置情報またはユーザーのIPアドレスに基づいて、ユーザーの現在位置と過去に訪れた場所に関する情報を提供することができます。Googleはこの位置情報データを使用して、Zagatによる詳細なレビューと評価を備えたGoogle Localプラットフォームを通じて、検索結果にグループ化されたローカルリストを提供しています。[ 8 ]
検索履歴は、2005年に初めて、個々のエンドユーザーによる過去の検索やクリックしたリンクに基づいて検索結果をパーソナライズするために利用されました。その後、2009年にGoogleは、パーソナライズ検索においてユーザーのログインを必要とせず、代わりにウェブブラウザの匿名Cookieを使用して、ログインしていないユーザー向けに検索結果をカスタマイズすると発表しました。[ 1 ]
ウェブ履歴は検索履歴とは異なり、ユーザーが実際に訪問したページの記録ですが、検索結果のランキングに影響を与える要素となります。最後に、Google+のデータは検索結果に使用されます。Googleは、この情報からユーザーの年齢、性別、居住地、職歴、興味、ソーシャルコネクションなど、多くのユーザー属性情報を得ることができるためです。[ 7 ]
GoogleのソーシャルネットワーキングサービスであるGoogle+も、年齢、性別、居住地、職業、友人などの人口統計データを収集しています。これは、ユーザーの身近な人からのレビューや評価を表示するときに特に役立ちます。
検索カスタマイズがエンドユーザーに実際に与える影響を明らかにするため、ノースイースタン大学の研究者たちは、ログインユーザーとコントロールグループを比較した研究で、検索結果の11.7%にパーソナライゼーションによる差異が見られることを明らかにしました。この研究は、この結果が検索クエリと検索結果の順位によって大きく異なることを示しました。[ 9 ]
次の例では、Portent チームは「JavaScript」の検索クエリを実行しました (右側に表示)。その後、「JavaScript」を検索する前に「プログラミング教科書」と「HTML に関する書籍」を検索しました。これにより、元の結果セットには含まれていなかった 3 つの書籍リストが表示され、検索結果が変更されました。この調査では、テストされたさまざまな要素のうち、最も測定可能な影響を持つ 2 つは、ユーザーが Google アカウントでログインしているかどうかと、検索しているユーザーの IP アドレスでした。この同じ調査では、Amazon Mechanical Turk (AMT) (クラウドソーシング インターネット マーケットプレイスで Amazon Web Services の一部) とコントロール グループを使用して、11.7% のパーソナライゼーションの影響も調査し、2 つの違いを判断しました。結果は、上位にランク付けされた URL はパーソナライゼーションに基づいて変更される可能性が低く、結果ページの下位ランクで最もパーソナライゼーションが行われていることを示しました。[ 7 ]
この機能については、いくつかの懸念が提起されています。この機能は、ユーザーが既に見つけた情報に検索結果を偏らせるため、新しい情報が見つかる可能性が低くなります。また、ユーザーは自分の検索結果が自分向けにパーソナライズされていることに気付かない可能性があり、同じコンピューターを使用している他の人の検索結果にも影響を及ぼします(別のユーザーとしてログインしている場合を除く)。この機能は、検索エンジン最適化(SEO)業界にも大きな影響を及ぼします。検索結果がすべてのユーザーに対して同じようにランク付けされるわけではないため、SEOの取り組みの効果を特定することがより困難になります。[ 10 ]パーソナライゼーションにより、ユーザーごとに検索エクスペリエンスが一貫していないため、SEO業界はランキングを上げるためにパーソナライズされた検索結果とパーソナライズされていない検索結果の両方を認識する必要があります。[ 8 ]
パーソナライズ検索は、検索結果に多くの背景ノイズを生み出すという問題を抱えています。これは、1回の検索の後にさらに別の検索が行われる場合のキャリーオーバー効果として捉えることができます。タイムアウト期間が十分に高い閾値に設定されていない場合、2回目の検索は最初の検索の影響を受けます。キャリーオーバー効果の悪影響の例として、ハワイの店舗を検索した場合、カリフォルニアにある同じ店舗が表示され、前回失敗した検索結果がキャリーオーバーされ、ノイズが生じることがあります。[ 9 ]
しかし近年、新たな研究により、検索エンジンはこれまで考えられていたようなフィルターバブルを作り出すわけではないことが示唆されている。ミシガン州立大学が7カ国で実施した検索エンジンの政治的影響に関する調査では、検索エンジンは人々が既に利用している他のニュースソースを補完するものであることが明らかになった。ユーザーは理解を深めるために様々なメディアから平均4.5のニュースソースをチェックし、政治に特に関心のあるユーザーはさらに多くのニュースソースをチェックした(この調査はGoogleの資金提供による)。研究者たちは、フィルターバブルは現実の問題のように聞こえ、主に自分以外の人々に当てはまるようだと指摘している。しかしながら、彼らの結論は、問題は誇張されており、証拠は逸話的であり、この研究によって得られた実証的証拠に基づいて検索エンジンがフィルターバブルの形成に寄与していると見なすことは不可能であるというものである。[ 11 ]
による検索結果のカスタマイズは自動機能ですが、この機能をオフにすることもできます。