チューリングテスト

チューリングテストの「標準的な解釈」。プレイヤーC(質問者)は、プレイヤーAとプレイヤーBのどちらがコンピュータで、どちらが人間であるかを判断するという課題を与えられます。質問者は、記述された質問への回答のみを使用して判断を下すことができます。[ 1 ]

チューリングテストは、1949年にアラン・チューリングによって模倣ゲームと呼ばれていました[ 2 ]。これは、機械が人間と同等の知的行動を示す能力をテストするものです。このテストでは、人間の評価者が人間と機械の間の自然言語による会話のテキストトランスクリプトを審査します。評価者は機械を識別しようとし、評価者が確実に区別できない場合、機械は合格となります。結果は、機械が質問に正しく答える能力ではなく、その答えが人間の答えにどれだけ似ているかによってのみ決まります。チューリングテストはパフォーマンス能力における区別不能性のテストであるため、言語バージョンは、言語的だけでなく非言語的(ロボット的)な人間のパフォーマンス能力全体に自然に一般化されます。[ 3 ]

このテストは、チューリングがマンチェスター大学在学中の1950年に発表した論文「計算機械と知能」で導入されました。[ 4 ]論文は「『機械は考えることができるか?という問いについて考察することを提案する」という一文で始まります。「思考」は定義が難しいため、チューリングは「この問いを、それに密接に関連し、比較的明確な言葉で表現された別の問いに置き換える」ことを選択しました。[ 5 ]チューリングは、この問題の新しい形態を「模倣ゲーム」と呼ばれる3人パーティゲームで説明します。このゲームでは、質問者が別の部屋にいる男性と女性に質問をし、2人のプレイヤーの性別を判定します。チューリングの新しい問いは、「模倣ゲームで優れた成績を収めるデジタルコンピュータは想像できるか?」です。 [ 2 ]チューリングは、この問いは実際に答えられるものだと考えました。論文の残りの部分では、「機械は考えることができる」という命題に対する主要な反論に反論しました。[ 6 ]

チューリングがテストを導入して以来、このテストは人工知能の哲学に大きな影響を与え、多くの議論と論争を巻き起こし、ジョン・サールのような哲学者から、テストが意識を検出できるかどうかに反対する批判も受けた。[ 7 ] [ 8 ]

歴史

哲学的背景

機械が思考できるかどうかという問いには長い歴史があり、それは心の二元論的見解と唯物論的見解の区別にしっかりと根ざしています。ルネ・デカルトは1637年の『方法序説』の中で、チューリングテストの側面を予見しています

人間の努力によって、どれほど多くの種類のオートマタや動く機械が作られるだろうか。…機械が言葉を発し、さらには身体的な作用によって器官に変化が生じ、何らかの反応を示すように構成されていることは容易に理解できる。例えば、ある部位に触れると、何を言いたいのか尋ねてくるかもしれないし、別の部位に触れると、痛いと叫ぶかもしれない、といった具合だ。しかし、最も低級な人間でさえできるように、機械が様々な方法で言葉を組み立て、目の前にいるあらゆる言葉に適切に答えるということは決してない。[ 9 ]

ここでデカルトは、オートマタが人間とのやり取りに応答できると指摘するが、そのようなオートマタは、人間のように目の前で発せられた言葉に適切に応答することはできないと主張する。したがって、デカルトは、適切な言語的応答の不十分さを人間とオートマトンを隔てるものとして定義することで、チューリングテストを予見している。デカルトは、将来のオートマタがそのような不十分さを克服できる可能性を考慮しておらず、チューリングテストの概念的枠組みと基準を予見していたとしても、チューリングテストそのものを提唱しているわけではない。

ドニ・ディドロは1746 年の著書『哲学パンセ』でチューリングテストの基準を定式化していますが、参加者は人工物ではなく自然の生き物であるという重要な暗黙の限定的仮定は維持されています。

もし、すべての質問に答えられるオウムが見つかったら、私はためらうことなく、それを知的な存在だと主張するでしょう。

これは彼がこれに同意しているという意味ではなく、それが当時の 唯物論者の間ですでに一般的な議論であったという意味です。

二元論によれば、非物理的(あるいは少なくとも非物理的な性質を持つ)であり[ 10 ]、したがって純粋に物理的な観点から説明することはできない。一方、唯物論によれば、心は物理的に説明可能であり、人工的に作り出された心が存在する可能性も残されている[ 11 ] 。

1936年、哲学者アルフレッド・エイヤーは、他者の心に関する標準的な哲学的問題、すなわち、他者が自分と同じ意識体験をしていることをどうやって知るかについて考察した。エイヤーは著書『言語・真理・論理』の中で、意識のある人間と意識のない機械を区別するためのプロトコルを提案した。「意識があるように見える物体が実際には意識のある存在ではなく、ダミーか機械に過ぎないと主張する唯一の根拠は、意識の有無を判断する経験的テストの1つを満たしていないということだ」[ 12 ](この提案はチューリングテストに非常に似ているが、エイヤーの有名な哲学の古典がチューリングに馴染みがあったかどうかは定かではない。)言い換えれば、意識テストに失敗したものは意識がないということである。

文化的背景

チューリングテストの基本的な概念は、ジョナサン・スウィフトの1726年の小説『ガリヴァー旅行記』に登場します。[ 13 ] [ 14 ]ガリヴァーがブロブディンナグ王の前に連れてこられたとき、王は最初、ガリヴァーは「(その国では非常に完成度の高い)時計仕掛けの部品で、何らかの独創的な芸術家によって考案されたのではないか」と考えました。ガリヴァーの会話を聞いても、王はガリヴァーが「より高く売れるように」するために「一連の言葉」を教えられたのではないかと疑いました。ガリヴァーは、「私にいくつか質問をして、それでも合理的な答えをもらった」後、王はガリヴァーが機械ではないと確信したと述べています。[ 15 ]

1940年代までに、コンピューターやエイリアンが知的かどうかを人間が判断するテストはSFの世界では定着しており、チューリングもこれを知っていた可能性が高い。[ 16 ]スタンリー・G・ワインバウムの『火星の旅』(1934年)は、このようなテストがいかに微妙なものになり得るかを示す例である。[ 16 ]

機械やオートマトンが人間のふりをしようとした初期の例としては、アフロディーテに操られる女性の彫刻を創る古代ギリシャ神話のピグマリオン、本物の少年になろうとする人形を描いたカルロ・コッローディの小説『ピノキオの冒険』 、そして主人公がオートマトンに恋をするETAホフマンの1816年の物語『サンドマン』などが挙げられます。これらの例すべてにおいて、人々はある程度まで人間のふりをする人工物に騙されています。[ 17 ]

アラン・チューリングと模倣ゲーム

イギリスの研究者は、1956年に人工知能(AI)研究分野が設立される以前から、最大10年間「機械知能」を研究してきました。 [ 18 ]これは、アラン・チューリングを含むイギリスのサイバネティクスエレクトロニクスの研究者の非公式グループであるレシオクラブのメンバーの間で共通の話題でした。[ 19 ]

特にチューリングは、少なくとも1941年から機械知能の概念を提唱しており[ 20 ]、「コンピュータ知能」についての最も古い言及の一つは、1947年に彼によってなされたものである[ 21 ]。チューリングの報告書「知能機械」[ 22 ]では、「機械が知的な行動をとることが可能かどうかという問題」を調査し[ 23 ]、その調査の一環として、後のテストの先駆けとも言えるものを提案した。

それほど悪くないチェスのゲームをプレイできる抄紙機を考案するのは難しくありません。[ 24 ]さて、実験の被験者としてA、B、Cの3人を用意しましょう。AとCはチェスがあまり上手ではないプレイヤーで、Bは抄紙機を操作するオペレーターです。… 2つの部屋を用意し、動きを伝えるための仕組みを作り、CとAまたは抄紙機の間でゲームをプレイします。Cは自分がどちらをプレイしているのかを見分けるのが非常に難しいかもしれません。[ 25 ]

計算機械と知能」(1950年)は、チューリングが機械知能のみに焦点を当てた最初の論文でした。チューリングはこの1950年の論文を、「私は『機械は考えることができるか?という問いについて考察することを提案する」という主張で始めています。 [ 5 ]彼が指摘するように、この種の問いへの従来のアプローチは、定義から始め、「機械」と「考える」という用語の両方を定義することです。チューリングはそうしませんでした。代わりに、彼は問いを「それに密接に関連し、比較的明確な言葉で表現された」新しい問いに置き換えました。[ 5 ]本質的に彼は、問いを「機械は考えることができるか?」から「機械は私たち(思考する存在)ができることができるか?」へと変えることを提案しています。[ 26 ]チューリングによれば、この新しい問いの利点は、「人間の身体的能力と知的能力の間にかなり明確な線を引く」ことにあります。[ 27 ]

このアプローチを実証するために、チューリングはパーティーゲームにヒントを得た「模倣ゲーム」と呼ばれるテストを提案した。このゲームでは、男性と女性が別々の部屋に入り、ゲストは一連の質問を書いて、タイプライターで返送された回答を読むことで、2人を区別しようとする。このゲームでは、男性と女性の両方が、ゲストに自分が相手であると信じ込ませる。(フーマ・シャーは、この2人用バージョンのゲームは、チューリングが読者に機械と人間の質疑応答テストを紹介するためだけに提示したと主張している[ 28 ]。)チューリングはこの新しいバージョンのゲームを次のように説明した。

ここで、「このゲームで機械がAの役を演じたらどうなるだろうか?」という疑問が生じます。このゲームで機械がAの役を演じた場合、質問者は男性と女性の間でゲームをする場合と同じくらい頻繁に誤った判断を下すでしょうか?これらの疑問は、当初の「機械は考えることができるか?」という疑問に取って代わるものです。[ 27 ]

論文の後半で、チューリングは「同等の」代替案として、裁判官がコンピュータと人間のみと会話するという手法を提案している。[ 29 ]これらの手法はいずれも、今日広く知られているチューリングテストとは完全には一致しないが、彼は1952年に3つ目の手法を提案している。チューリングがBBCラジオ放送で論じたこのバージョンでは、陪審員がコンピュータに質問し、コンピュータの役割は陪審員のか​​なりの割合にそれが実際には人間であると信じさせることである。[ 30 ]

チューリングの論文では9つの想定される反論が検討されており、その中には論文発表以来提起されてきた人工知能に対する主要な反論も含まれている(「計算機と知能」を参照)。[ 6 ]

中国語の部屋

ジョン・サールは1980年の論文『心、脳、そしてプログラム』で「中国語の部屋」という思考実験を提唱し、チューリングテストは機械が思考できるかどうかを判断するのに使えないと主張しました。サールは、ソフトウェア(ELIZAなど)は、理解できない記号を操作するだけでチューリングテストに合格できることを指摘しました。理解がなければ、人間と同じ意味で「思考している」とは言えません。したがって、サールは、チューリングテストでは機械が思考できることを証明できないと結論付けました。[ 31 ]チューリングテスト自体と同様に、サールの主張は広く批判され[ 32 ]、支持もされています[ 33 ]

サールや他の心の哲学者たちの議論は、知性の本質、意識を持った機械の可能性、チューリングテストの価値などについて、1980年代から1990年代にかけて続く激しい議論を引き起こした。[ 34 ]

ローブナー賞

ローブナー賞は現在廃止されたと報告されていますが[ 35 ] 、実用的なチューリングテストのための年次プラットフォームを提供し、最初のコンテストは1991年11月に開催されました[ 36 ] 。この賞はヒュー・ローブナーによって後援されました。米国マサチューセッツ州のケンブリッジ行動研究センターが2003年のコンテストまでこの賞を主催しました。ローブナーが述べたように、このコンテストが創設された理由の1つは、少なくとも部分的には、40年間チューリングテストについて議論されてきたにもかかわらず、誰も実装するための措置を講じていなかったため、AI研究の進歩を促進することでした。[ 37 ]

1991年に開催された第1回ローブナー賞コンテストは、チューリングテストの実現可能性とそれを追求する価値について、一般のメディア[ 38 ]と学界[ 39 ]の両方で新たな議論を引き起こした。最初のコンテストで優勝したのは、識別可能な知能を持たない無知なプログラムであり、素朴な質問者を騙して誤った識別を行わせた。これは、チューリングテストのいくつかの欠点(後述を浮き彫りにした。優勝者の勝利の少なくとも一部は、「人間の入力ミスを模倣」できたことにある。[ 38 ]知識の浅い質問者は簡単に騙されてしまう。[ 39 ]また、一部のAI研究者は、このテストはより実りある研究の妨げになるだけだと考えるようになった。[ 40 ]

銀賞(テキストのみ)と金賞(音声と映像)は、これまで受賞歴がありません。しかし、このコンテストでは毎年、応募作品の中で審査員の判断により「最も人間らしい」会話動作を示したと判断されたコンピュータシステムに銅メダルを授与しています。人工言語インターネットコンピュータ実体(ALICE)は、近年3回(2000年、2001年、2004年)銅賞を受賞しています。学習AI Jabberwackyは2005年と2006年に受賞しました。

ローブナー賞は会話知能をテストする賞で、受賞者は通常、おしゃべりボットプログラムまたは人工会話エンティティ(ACE)でした。初期のローブナー賞のルールでは会話が制限されていました。各参加者と隠れた人間は単一のトピックについて会話し、[ 41 ]そのため、質問者はエンティティとのやり取りごとに1行の質問しかできませんでした。会話の制限ルールは、1995年のローブナー賞で撤廃されました。ローブナー賞では、審査員とエンティティ間のやり取りの持続時間が異なっています。サリー大学で行われた2003年のローブナー賞では、各質問者はエンティティ、機械、または隠れた人間と5分間のやり取りが許されました。2004年から2007年の間、ローブナー賞で許されたやり取り時間は20分以上でした。2016年のローブナーの死去に伴い賞の資金が不足したため、最後のコンテストは2019年に行われました。[ 42 ]

CAPTCHA

CAPTCHA(「コンピュータと人間を区別するための完全に自動化された公開チューリングテスト」の略インターネット上の自動プログラムボット人間区別するために設計されたチューリングテストに基づくシステムです。多層ボット対策戦略では、アカウント作成、ログイン認証、取引および支払い処理、フォームの送信など、ウェブサイト上でユーザーの操作が要求されるときにCAPTCHAが展開されます

種類

CAPTCHAは主に2つの種類に分類できます。

  • 従来のCAPTCHAは、ユーザーによる直接的なインタラクションを必要とする、視覚的に分かりやすいチャレンジです。一般的な実装としては、歪んだテキスト認識、数学問題、画像ラベル付けタスク、ドラッグアンドドロップパズルピース、音声書き起こしチャレンジなどがあります。これらの方法は、自動アクセスの防止には効果的ですが、障害のあるユーザーにとってアクセシビリティの障壁となるとして批判されてきました
  • 最新のCAPTCHA(次世代CAPTCHAまたはインビジブルCAPTCHAとも呼ばれる)は、プルーフ・オブ・ワーク(Proof-of-Work )などの高度な技術を採用しています。これらのシステムは、ユーザーによる明示的な操作を必要とせず、ボット検出の有効性を維持しながらバックグラウンドで透過的に動作します。このアプローチは、従来の方法に伴うアクセシビリティに関する多くの懸念に対処します。

Google reCAPTCHA

Google reCAPTCHAは、 Googleが開発したCAPTCHAサービスです。最初の2つのバージョン(v1とv2)では、視覚的または音声的なチャレンジが提示され、ユーザーは画像を識別するか、歪んだテキストシーケンスを解読する必要があります。バージョン3(reCAPTCHA v3)は、目に見えないCAPTCHAとして導入され、ユーザーの操作を中断することなく動作します。明示的なチャレンジではなく、行動分析とインタラクションパターンに基づいてリスクスコアを割り当てます。このスコアベースのシステムは、ユーザーの行動を分析してボット活動の可能性を推定し、ウェブサイト管理者はこれらのスコアに基づいてしきい値とアクションをカスタマイズできます。[ 43 ] [ 44 ]

試み

初期のシンボリックAIプログラムのいくつかは、スクリプト化された状況に限定するか、精神疾患や英語の理解不足など、推論能力や会話能力の低さに対する「言い訳」を提示することで、チューリングテストに合格したと物議を醸しながら主張されました。[ 45 ] [ 46 ] [ 47 ]

1966年、ジョセフ・ワイゼンバウムはロジャーズ派の心理療法士を模倣したELIZAというプログラムを作成しました。[ 48 ]このプログラムは、ユーザーの文章からキーワードを検索し、それをユーザーに繰り返し伝えることで、プログラムがユーザーの話を聞いて注意を払っているという印象を与えました。[ 49 ]ワイゼンバウムは、チャットボットが「現実世界についてほとんど何も知らない」にもかかわらず、人間を模倣できる状況を設計することに成功しました。[ 46 ]ワイゼンバウムのプログラムは、一部の人々を騙して、本物の人間と話していると信じ込ませることができました。[ 46 ]

ケネス・コルビーは1972年に妄想型統合失調症患者の行動をモデルにしたプログラムPARRYを作成した。[ 50 ] [ 48 ]このプログラムによって生成された会話の記録と実際の統合失調症患者の会話の記録を比較するように依頼された精神科医は、約52%のケースしか正しく識別できなかった(ランダムな推測と一致する数字)。[ 51 ]

2001年、3人のプログラマーがユージン・グーストマンというチャットボットを開発しました。これは、オデッサ出身で英語を第二言語とする13歳の少年を装ったものです。この背景は、審査員がプログラムのミスを許容できるように意図的に選ばれました。あるコンテストでは、審査員の33%がグーストマンを人間だと考えました。[ 52 ] [ 53 ] [ 54 ]

大規模言語モデル

Google LaMDA

2022年6月、GoogleLaMDAモデルは、知覚を獲得したという主張の後、広く報道されました。当初、エコノミスト誌の記事で、Googleリサーチフェローのブレイズ・アグエラ・イ・アルカス氏は、このチャットボットがある程度社会的関係を理解し​​ていることを示したと述べました。[ 55 ]数日後、Googleのエンジニアであるブレイク・ルモワン氏は、ワシントン・ポスト紙のインタビューで、LaMDAが知覚を獲得したと主張しました。ルモワン氏は、この件に関する社内主張のためにGoogleから休職処分を受けていました。Googleはこの主張を調査しましたが、却下しました。[ 56 ] [ 57 ]

ChatGPT

2022年11月にリリースされたOpenAIのチャットボット、ChatGPTは、GPT-3.5GPT-4の大規模言語モデルに基づいています。Celeste BieverはNature誌の記事で、「ChatGPTはチューリングテストを破った」と書いています。[ 58 ]スタンフォード大学の研究者たちは、ChatGPTがテストに合格したと報告しました。彼らは、ChatGPT-4が「厳格なチューリングテストに合格し、主に協力的になるために平均的な人間の行動から逸脱している」ことを発見しました。[ 59 ]これは、これを成功させた最初のコンピュータープログラムとなりました。[ 60 ]

2025年3月下旬、ある研究では、4つのシステム(ELIZA、GPT-4o、LLaMa-3.1-405B、GPT-4.5)を、独立した参加者グループによる2つのランダム化比較チューリングテストで評価しました。参加者は、他の人間の参加者とこれらのシステムのいずれかと5分間の同時会話を行い、どの会話相手が人間であると信じるかを判断しました。人間のようなペルソナを採用するように指示されたとき、GPT-4.5は73%の確率で人間であると識別され、実際の人間の参加者よりも有意に高い頻度でした。同じ条件下でLLaMa-3.1は56%の確率で人間であると判断され、比較対象となった人間と比べて有意に高い頻度も低い頻度もありませんでした。ベースラインモデル(ELIZAとGPT-4o)は、偶然を大幅に下回る勝率(それぞれ23%と21%)を達成しました。[ 61 ]

バージョン

アラン・チューリングが『計算機械と知能』で述べた模倣ゲーム。プレイヤーCは、一連の筆記問題を通して、他の2人のプレイヤーのうちどちらが男性でどちらが女性かを判定しようとする。男性であるプレイヤーAは、プレイヤーCを騙して誤った判断をさせようとし、プレイヤーBはプレイヤーCを助けようとする。図はSaygin, 2000より改変。[ 7 ]

ソール・トライガーは、チューリングテストには少なくとも3つの主要なバージョンがあり、そのうち2つは『計算機械と知能』で紹介されており、もう1つは彼が「標準解釈」と呼んでいるものであると主張している。[ 62 ]「標準解釈」がチューリング自身によって記述されたものなのか、それとも彼の論文の誤読に基づくものなのかについては議論があるが、これら3つのバージョンは同等とはみなされておらず、[ 62 ]それぞれ長所と短所が異なる。[ 63 ]

チューリングの原著論文では、3人のプレイヤーが参加する単純なパーティーゲームについて説明されている。プレイヤーAは男性、プレイヤーBは女性、そしてプレイヤーC(尋問役)は男女どちらでも構わない。この模倣ゲームでは、プレイヤーCはプレイヤーAとプレイヤーBのどちらも見ることができず、メモを通してのみコミュニケーションをとることができる。プレイヤーCはプレイヤーAとプレイヤーBに質問することで、どちらが男性でどちらが女性かを判別しようとする。プレイヤーAの役割は尋問者を騙して誤った判断をさせることであり、プレイヤーBは尋問者が正しい判断を下せるよう手助けすることである。[ 7 ]

チューリングは次のように問いかける。

「このゲームで機械がAの役を演じたらどうなるだろうか? 質問者は、男性と女性の間でゲームをするときと同じくらい頻繁に、このようにゲームをするときも間違った判断をするだろうか?」 これらの質問は、当初の「機械は考えることができるか?」[ 27 ]に代わるものである

プレイヤーAがコンピュータに置き換えられた、オリジナルのイミテーションゲームテスト。コンピュータが男性の役割を担い、プレイヤーBは引き続き尋問者を支援しようと試みる。図はSaygin, 2000より改変。[ 7 ]

2番目のバージョンは、後にチューリングの1950年の論文で発表されました。オリジナルの模倣ゲームテストと同様に、プレイヤーAの役割はコンピュータによって実行されます。ただし、プレイヤーBの役割は女性ではなく男性が担います。

ある特定のデジタルコンピュータCに注目してみましょう。このコンピュータを改造して十分な記憶容量を持たせ、動作速度を適切に上げ、適切なプログラムを与えることで、Cは模倣ゲームにおいて人間が演じるBの役割を満足に果たせるようになる、というのは本当でしょうか?[ 27 ]

このバージョンでは、プレイヤー A (コンピュータ) とプレイヤー B の両方が、質問者を騙して誤った決定を下させようとします。

標準的な解釈は原論文には含まれていませんが、受け入れられつつも議論の的となっています。チューリングテストの目的は、コンピュータが質問者を騙して人間だと信じ込ませることができるかどうかを判定することではなく、コンピュータが人間の真似をすることができるかどうかを判定することであると、一般的に理解されています。 [ 7 ]この解釈がチューリングの意図であったかどうかについては異論もありますが、スターレットは[ 64 ]チューリングが意図していたと考えており、2番目の解釈とこの解釈を混同しています。一方、トライガーなどは[ 62 ] チューリングの意図を否定しています。それでもなお、この解釈は「標準的な解釈」と見なせるものとなっています。この解釈では、プレイヤーAはコンピュータ、プレイヤーBは男女どちらでも構いません。質問者の役割は、どちらが男性でどちらが女性かを判断することではなく、どちらがコンピュータでどちらが人間かを判断することです。[ 65 ]この標準的な解釈の根本的な問題は、質問者がどちらの回答者が人間でどちらが機械かを区別できないことです。期間については問題がありますが、標準的な解釈では、一般的にこの制限は合理的なものであると考えられています。

解釈

チューリングが意図したテストの代替的な定式化のいずれが適切であったかをめぐって論争が巻き起こっている。[ 64 ]スターレットは、1950年の論文から2つの異なるテストを抽出できると主張し、チューリングの発言にもかかわらず、それらは同等ではないと主張している。パーティーゲームを用いて成功頻度を比較するテストは「オリジナル・イミテーション・ゲーム・テスト」と呼ばれ、人間の審査員が人間と機械と対話するテストは「標準チューリング・テスト」と呼ばれている。スターレットは、これをイミテーション・ゲームの2番目のバージョンではなく「標準解釈」と同一視していることを指摘している。スターレットは、標準チューリングテスト(STT)には批判者が指摘する問題点があることに同意するが、その一方で、そのように定義されたオリジナルの模倣ゲームテスト(OIGテスト)は、重要な違いにより、多くの問題点を回避できると考えている。STTとは異なり、OIGテストは機械知能の基準設定において人間のパフォーマンスを用いているにもかかわらず、人間のパフォーマンスとの類似性を基準としていない。人間はOIGテストに不合格となる可能性があるが、不合格が機知の欠如を示すことは知能テストの長所であると主張されている。OIGテストは、単に「人間の会話行動の模倣」ではなく、知能に関連する機知を必要とする。OIGテストの一般的な構造は、模倣ゲームの非言語バージョンにも適用できる可能性がある。[ 66 ]

フーマ・シャーによると、チューリング自身は機械が考えることができるかどうかに関心を持っており、これを検証するための簡単な方法、つまり人間と機械の質問と回答セッションを提供していたという。[ 67 ]シャーは、チューリングが説明した模倣ゲームは、2つの異なる方法で実現できると主張している。a) 1対1の質問者と機械のテスト、b) 機械と人間の同時比較(質問者が両方に並行して質問する)である。[ 28 ]

さらに他の著者[ 68 ]は、チューリングが模倣ゲーム自体がテストであると提案していると解釈しているが、チューリングが提案した、模倣ゲームのパーティーバージョンを使用するテストは、ゲームの1ラウンドで成功する能力ではなく、その模倣ゲームでの成功の比較頻度の基準に基づいているというチューリングの声明をどのように考慮するかについては具体的に述べていない。

模倣ゲームは、その社会的側面から最もよく理解できると主張する著者もいる。1948年の論文で、チューリングは知能を「感情的概念」と呼び、次のように述べている。

何かが知的な振る舞いをしていると私たちがどの程度認識するかは、対象の性質だけでなく、私たち自身の精神状態や訓練によっても左右される。もし私たちがその振る舞いを説明・予測できる場合、あるいは背後に何らかの意図がほとんどないように思える場合、私たちは知性を想像する誘惑に駆られることはほとんどない。したがって、同じ対象であっても、ある人はそれを知的なものと認識し、別の人はそう認識しない可能性がある。後者は、その振る舞いの規則を発見しているであろう。[ 69 ]

この発言やチューリングの著書に散見される類似の発言を受けて、ダイアン・プラウドフット[ 70 ]は、チューリングは知能に対して反応依存的なアプローチをとっていたと主張している。このアプローチによれば、知能を持つ(あるいは思考する)存在とは平均的な尋問者にとって知能があるように見える存在である。シュロモ・ダンジガー[ 71 ]は社会技術的な解釈を提唱しており、それによれば、チューリングは模倣ゲームを知能テストではなく技術的な願望であり、その実現には機械に対する社会の態度の変化が伴う可能性が高いとみていた。この解釈によれば、チューリングの有名な 50 年前の予言、すなわち 20 世紀末までに何らかの機械が彼のテストに合格するという予言は、実際には 2 つの明確に区別できる予言から成り立っている。1 つ目は技術的な予言である。

私は約50年後には、コンピュータをプログラムして模倣ゲームを非常に上手にプレイさせることが可能になり、平均的な尋問者が5分間の質問で正しい識別を行う確率は70%以下になるだろうと信じている。[ 72 ]

チューリングの2番目の予測は社会学的なものです。

私は今世紀末には言葉の使い方や一般教養人の意見が大きく変わり、機械が考えることについて反論されることを予想せずに話せるようになると信じている。[ 72 ]

ダンジガーはさらに、チューリングにとって、機械に対する社会の態度の変化がインテリジェントな機械の存在の前提条件であると主張している。「インテリジェントな機械」という用語がもはや矛盾語法と見なされなくなったときにのみ、インテリジェントな機械の存在が論理的に可能になるだろう。

セイギンは、オリジナルのゲームはコンピュータの参加を隠すことで、より偏りのない実験設計を提案する手段である可能性があると示唆している。[ 73 ]また、この模倣ゲームには、標準的な解釈には見られない「ソーシャルハック」も含まれており、ゲームではコンピュータと男性の両方が、自分ではない誰かのふりをしてプレイする必要がある。[ 74 ]

尋問者はコンピュータについて知っておくべきでしょうか?

実験室でのテストにおいて重要なのは、コントロールが必要であるということです。チューリングは、テストにおいて、尋問者が参加者の1人がコンピューターであることを知っているかどうかを明確にしていません。彼は、プレイヤーAが機械に置き換えられると述べているだけで、プレイヤーCにこの置き換えを知らせる必要があるとは述べていません。[ 27 ]コルビー、FDヒルフ、Sウェーバー、ADクレイマーがPARRYをテストしたとき、彼らは、尋問者は尋問中にインタビュー対象者の1人または複数がコンピューターであることを知る必要はないと仮定してテストを行いました。[ 75 ]アイセ・セイギン、ピーター・スウィルスキ、[ 76 ]などが指摘しているように、これはテストの実施と結果に大きな違いをもたらします。[ 7 ] 1994年から1999年にかけて行われたローブナーの1対1(質問者と隠れた対話者)AIコンテストの記録を使用して、グライスの格言違反を調べた実験的研究で、アイセ・セイギンは、コンピューターが関与していることを知っていた参加者と知らなかった参加者の反応に大きな違いがあることを発見した。[ 77 ]

強み

扱いやすさとシンプルさ

チューリングテストの力と魅力は、そのシンプルさにあります。心の哲学心理学、そして現代神経科学は、「知性」と「思考」について、機械に適用できるほど正確かつ一般的な定義を提供することができませんでした。そのような定義がなければ、人工知能の哲学における中心的な問いに答えることはできません。チューリングテストは、たとえ不完全であっても、少なくとも実際に測定できるものを提供します。したがって、難しい哲学的問いに答えるための実用的な試みと言えるでしょう

主題の広さ

このテストの形式により、質問者は機械に様々な知的課題を与えることができます。チューリングは「質問と回答の方法は、私たちが含めたいと考える人間の活動のほぼあらゆる分野を紹介するのに適しているようだ」と書いています。[ 78 ]ジョン・ハウゲランドは、「言葉を理解するだけでは十分ではなく、主題も理解する必要がある」と付け加えています。 [ 79 ]

適切に設計されたチューリングテストに合格するには、機械は自然言語を使用し、推論し知識を持ち、学習する必要があります。このテストは、ビデオ入力や物体を通過させる「ハッチ」を含めるように拡張できます。これにより、機械は適切に設計された視覚ロボット工学の熟練した使用を実証する必要が生じます。これらを組み合わせることで、人工知能研究が解決しようとする主要な課題のほぼすべてが網羅されます。[ 80 ]

ファイゲンバウムテストは、チューリングテストで利用可能な幅広いトピックを活用するように設計されています。これはチューリングの質問応答ゲームの限定版であり、機械の能力を文学や化学などの特定分野の専門家の能力と比較します。

感情的知性と美的知性を重視

ケンブリッジ大学で数学の優等学位を取得したチューリングは、高度な技術分野の専門知識を必要とするコンピュータ知能のテストを提案し、この分野へのより現代的なアプローチを予見していたと思われたかもしれない。しかし、既に述べたように、彼が1950年の画期的な論文で述べたテストでは、コンピュータが一般的なパーティーゲームでうまく競争できることが求められた。これは、一連の質問において、典型的な男性と同等の成績を収め、女性参加者を装うことで実現された。

人間の性的二形性は最も古い研究テーマの一つであることを考えると、上記のシナリオでは、答えるべき問いは専門的な事実知識や情報処理技術を必要としないことが暗黙的に示されています。むしろ、コンピュータにとっての課題は、女性の役割に対する共感を示すこと、そして特徴的な美的感受性を示すことです。チューリングが想像したこの会話の断片には、この両方の資質が表れています。

質問者: Xさんの髪の長さを教えていただけますか?
出場者: 私の髪はばら色で、一番長い髪は9インチくらいあります。

チューリングが想像上の対話の中で専門知識を持ち出すとき、その主題は数学や電子工学ではなく、詩である。

質問者: あなたのソネットの最初の行は「あなたを夏の日にたとえようか」ですが、「春の日」でも同等かそれ以上ではないでしょうか。
証人:スキャンできませんでした。
質問者:「冬の日」はどうでしょうか。それなら大丈夫でしょう。
証人: そうです。しかし、誰も冬の日と比較されたくはありません。

チューリングはこのようにして、人工知能の構成要素としての共感性と美的感受性への関心を改めて示している。そして、暴走するAIの脅威に対する意識が高まる中で[ 81 ] 、この焦点はチューリングの重要な直感、すなわち感情的知性と美的知性が「友好的なAI 」の創造において重要な役割を果たすであろうという直感を表わしているのではないかと示唆されている[ 82 ]。しかしながら、チューリングがこの方向にどのようなインスピレーションを与えることができるかは、彼の当初のビジョンの維持にかかっており、つまり、チューリングテストの「標準的な解釈」、すなわち言説的知性のみに焦点を当てた解釈の普及には、ある程度の注意が必要であることも指摘しておくべきである。

弱点

チューリングは、チューリングテストが「知性」やその他の人間の資質を測る尺度として使用できるとは明言しませんでした。彼は「考える」という言葉に代わる明確で理解しやすい言葉を提供し、「考える機械」の可能性に対する批判に反論し、研究を前進させる方法を提案したいと考えていました

それにもかかわらず、チューリングテストは機械の「思考能力」あるいは「知性」を測る尺度として提案されてきました。この提案は、哲学者とコンピュータ科学者の両方から批判を受けています。この解釈は、機械の行動を人間の行動と比較することで、機械が「思考している」かどうかを判断できるという前提に基づいています。この前提のあらゆる要素、すなわち、質問者の判断の信頼性、機械と人間を比較することの価値、そして行動のみを比較することの価値が疑問視されています。こうした点やその他の理由から、一部のAI研究者は、チューリングテストが自らの分野に適切かどうか疑問視しています。

質問者のナイーブさ

実際には、テストの結果はコンピューターの知能ではなく、質問者の態度、スキル、あるいはナイーブさによって左右される可能性があります。認知科学者のゲイリー・マーカス氏を含むこの分野の多くの専門家は、チューリングテストは人間を騙すのがいかに容易かを示すものであり、機械の知能を示すものではないと主張しています。[ 83 ]

チューリングは、このテストの説明の中で、尋問官に求められる技能や知識について具体的には述べていないが、「平均的な尋問官」という言葉を使った。「平均的な尋問官は、5分間の尋問で正しい識別ができる確率が70%以下だろう」[ 72 ]

ELIZAのようなチャットボットプログラムは、疑いを持たない人々を何度も騙し、人間とコミュニケーションを取っていると信じ込ませてきました。こうしたケースでは、「質問者」は自分がコンピュータと対話している可能性にすら気づいていません。人間らしく見せるためには、機械に知能は全く必要ではなく、人間の行動に表面的に似ているだけで十分です。[ 48 ]

初期のローブナー賞では、機械に簡単に騙される「経験の浅い」尋問者が使われていました。[ 39 ] 2004年以降、ローブナー賞の主催者は、哲学者、コンピュータ科学者、ジャーナリストを尋問者に起用しています。しかし、これらの専門家の中には、機械に騙された人もいます。[ 84 ]

チューリングテストの興味深い特徴の一つは、共謀者効果の頻度である。これは、共謀者(テスト対象)の人間が尋問者によって機械と誤認される現象である。尋問者が人間の反応として期待するものが、必ずしも人間の典型的な反応であるとは限らないことが示唆されている。その結果、一部の個体が機械として分類される可能性がある。したがって、これは競合する機械にとって有利に働く可能性がある。人間は「自分らしく行動する」ように指示されるが、その答えは尋問者が機械に期待する答えに近い場合がある。[ 85 ]このことから、人間が「人間らしく行動する」動機をどのように確保するかという問題が生じる。

人間の知能と一般的な知能

チューリングテストは、コンピュータが知的に振る舞うかどうかを直接テストするものではありません。コンピュータが人間のように振る舞うかどうかのみをテストします。人間の行動と知的行動は全く同じではないため、このテストでは以下の2つの理由から知性を正確に測定できない可能性があります。

人間の行動の中には知性に欠けるものもある
チューリングテストでは、機械が人間のあらゆる行動を実行できることが求められます。その行動が知的であるかどうかは関係ありません。侮辱を受けやすいこと、[ 86 ]をつきやすいこと、あるいは単にタイピングミスが多いことなど、知的とは到底考えられないような行動もテストされます。機械がこれらの非知的な行動を詳細に模倣できない場合、テストに不合格となります。
この反論は 1992年の第1回ローブナー賞コンペティションの直後にエコノミスト誌に掲載された「人工的な愚かさ」と題された記事の中で提起された。記事では、第1回ローブナー賞受賞者の受賞は、少なくとも部分的には「人間の入力ミスを模倣する」能力によるものだと指摘されている。 [ 38 ]チューリング自身も、プログラムが出力にエラーを加えることで、ゲームのより良い「プレイヤー」となることを示唆していた。[ 87 ]
知的な行動の中には非人間的なものもある
チューリングテストは、難しい問題を解いたり独創的な洞察を導き出したりする能力といった、高度な知能行動をテストするものではありません。実際、このテストは機械側の欺瞞を特に必要とします。機械が人間よりも知能が高い場合、意図的にあまり知的に見えないようにしなければなりません。もし機械が、人間には事実上不可能な計算問題を解こうとした場合、質問者はそのプログラムが人間ではないと認識し、機械はテストに不合格となるでしょう。
このテストは人間の能力を超える知能を測定できないため、人間よりも知能の高いシステムの構築や評価には使用できません。そのため、超知能システムを評価できる代替テストがいくつか提案されています。[ 88 ]

意識 vs. 意識のシミュレーション

チューリングテストは、被験者の行動 、つまり機械の外的行動のみを対象としています。この点において、チューリングテストは行動主義的あるいは機能主義的なアプローチで心の研究を行っています。ELIZAの例はこのテストに合格した機械は、思考したり心を持たなくても、単純(だが膨大な)な機械的規則のリストに従うことで、人間の会話行動を模倣できる可能性があることを示唆しています。[ 48 ]

ジョン・サールは、機械が「実際に」思考しているのか、それとも単に「思考をシミュレートしている」だけなのかを判断するために、外部の行動を用いることはできないと主張した。[ 31 ]彼の中国語の部屋に関する議論は、チューリングテストが知能の適切な操作的定義であるとしても、機械が意識、あるいは志向性を持っていることを示さない可能性があることを示すことを意図している。(志向性とは、思考が何かについて「考える」力を表す哲学用語である。)

チューリングは彼の最初の論文でこの批判を予期しており、[ 89 ]次のように書いている。

意識について謎は存在しないと考えているかのような印象を与えたくはありません。例えば、意識を局所化しようとする試みには、ある種のパラドックスが伴います。しかし、本稿で論じている問いに答えるためには、必ずしもこれらの謎を解く必要はないと考えています。[ 90 ]

非実用性と無関係性:チューリングテストとAI研究

主流派のAI研究者は、チューリングテストに合格しようとすることは、より実りある研究の妨げに過ぎないと主張している。[ 40 ]実際、チューリングテストは学術的にも商業的にも積極的に研究対象とされていない。スチュアート・ラッセルピーター・ノーヴィグは「AI研究者はチューリングテストに合格することにほとんど注意を払ってこなかった」と書いている。[ 91 ]理由はいくつかある。

まず、プログラムをテストするより簡単な方法があります。AI関連分野における現在の研究のほとんどは、物体認識物流といった、控えめで具体的な目標に焦点が当てられています。これらの問題を解決するプログラムの知能をテストするために、AI研究者は単にプログラムに直接タスクを与えるだけです。スチュアート・ラッセルとピーター・ノーヴィグは、飛行の歴史との類似点を示唆しています。飛行機は鳥と比較するのではなく、飛行性能でテストされます。「航空工学の教科書では、この分野の目標を『のように飛び、他の鳩を騙せる機械を作ること』とは定義していません[ 91 ]

第二に、人間をリアルに再現するシミュレーションを作成することは、それ自体が困難な問題であり、AI研究の基本目標を達成するために解決する必要はありません。信憑性のある人間のキャラクターは、芸術作品、ゲーム、あるいは洗練されたユーザーインターフェースにおいては興味深いものとなるかもしれませんが、知能機械、つまり知能を用いて問題を解決する機械を作成する科学の一部ではありません。

チューリングは、自身のアイデアがプログラムの知能をテストするために使われることを意図していたわけではなく、人工知能の哲学に関する議論を助けるための明確で理解しやすい例を提供したかったのです。[ 92 ]ジョン・マッカーシーは、哲学的なアイデアが実用化には役に立たないことが判明しても驚くべきではないと主張しています。彼は、AIの哲学が「科学哲学が科学の実践に一般的に及ぼす影響よりも、AI研究の実践に及ぼす影響は少ないだろう」と述べています。[ 93 ] [ 94 ]

言語中心の反論

チューリングテストに対するもう一つのよく知られた反論は、言語行動のみに焦点を当てている点(つまり、「言語に基づく」実験のみであり、他の認知能力はテストされていない点)である。この欠点は、心理学者ハワード・ガードナーが「多重知能理論」において考察対象としている、人間に関する他の様相特有の「知的能力」の役割を矮小化するものである(言語能力はその一つに過ぎない)。[ 95 ]

沈黙

チューリングテストの重要な側面は、機械が発話によって自らが機械であることを明らかにしなければならないことです。質問者は、機械がまさに機械であることを正しく識別することで、「正しい識別」を行う必要があります。しかし、機械が会話中に沈黙している場合、質問者は計算された推測以外に機械を正確に識別することはできません。[ 96 ] テストの一部として並行/隠れた人間を考慮に入れても、状況は改善されない可能性があります。なぜなら、人間はしばしば機械と誤認される可能性があるからです。[ 97 ]

チューリングの罠

チューリングテストは、人間の能力を増強または拡張するのではなく、人間を模倣することに焦点を当てているため、研究と実装が人間を代替する技術に向かい、労働者の賃金と収入を押し下げる危険性があります。労働者は経済力を失うと政治力も失う可能性があり、富と収入の配分を変えることがより困難になります。これは彼らを悪い均衡に陥らせる可能性があります。エリック・ブリニョルフソンはこれを「チューリングの罠」[ 98 ]と呼び、現在、人間を増強するよりも模倣する機械を作るための過剰なインセンティブがあると主張しました

バリエーション

上記で説明したものを含め、チューリングテストには長年にわたり数多くのバージョンが考案されてきました

逆チューリングテストとCAPTCHA

機械と人間の間で役割の目的が逆転したチューリングテストの修正版は、逆チューリングテストと呼ばれます。精神分析医ウィルフレッド・ビオン[ 99 ]の研究にその一例が示唆されています。彼は、ある精神と別の精神が出会うことで生じる「嵐」に特に魅了されていました。文学研究者ピーター・スワースキーは、 2000年に出版した著書[ 76 ]の中で、チューリングテストに関する独創的な論点の中でも、彼がスワースキーテストと呼ぶ、本質的には逆チューリングテストの概念を詳細に論じました。彼は、このテストが、標準版に向けられる一般的な反論のほとんど、あるいはすべてを克服すると指摘しました。

この考えをさらに推し進め、RDヒンシェルウッド[ 100 ]は心を「心を認識する装置」と表現しました。コンピュータにとっての課題は、自分が人間と対話しているのか、それとも他のコンピュータと対話しているのかを判断できるようになることです。これはチューリングが答えようとした当初の問いの延長ですが、おそらく、私たちが一般的に人間的特徴と定義するような方法で「考える」ことができる機械を定義するのに十分な基準を提供するでしょう。

CAPTCHAは逆チューリングテストの一種です。ウェブサイト上で何らかの操作を行う前に、ユーザーは歪んだ画像の中に英数字が表示され、それを入力するよう求められます。これは、自動化システムによるサイトの不正利用を防ぐことを目的としています。歪んだ画像を正確に読み取り、再現できるほど高度なソフトウェアは存在しない(あるいは平均的なユーザーが利用できない)ため、それを実行できるシステムは人間である可能性が高いというのがその理由です。

CAPTCHAの作成後すぐに、生成エンジンのパターンを分析することで、ある程度の精度でCAPTCHAを解読できるソフトウェアの開発が始まりました。[ 101 ] 2013年に、 Vicarious の研究者は、GoogleYahoo!PayPalからのCAPTCHAチャレンジを最大90%の確率で解読できるシステムを開発したと発表しました。 [ 102 ] 2014年に、Googleのエンジニアは、CAPTCHAチャレンジを99.8%の精度で破ることができるシステムを実演しました。[ 103 ] 2015年に、 Googleの元クリック詐欺対策責任者であるShuman Ghosemajumderは、さまざまな形態の詐欺を可能にするために、CAPTCHAチャレンジを有料で破るサイバー犯罪サイトがあると述べました。 [ 104 ]

言語の正確な使用と実際の理解を区別する

さらなるバリエーションは、現代の自然言語処理が膨大なテキストコーパスに基づいてテキストを生成することに非常に成功しており、モデルの初期トレーニングで使用された単語や文を操作するだけで、最終的にはチューリングテストに合格する可能性があるという懸念から生まれた。質問者はトレーニングデータを正確に理解していないため、モデルは膨大な量のトレーニングデータに類似した文を単に返すだけかもしれない。このため、アーサー・シュワニンガーは、言語を使用することしかできないシステムと言語を理解するシステムを区別できるチューリングテストのバリエーションを提案している。彼は、機械が事前の知識に依存せず、かつ適切に答えるためには自己反省を必要とする哲学的な問いに直面するテストを提案している。[ 105 ]

主題専門家チューリングテスト

もう一つのバリエーションは、主題専門家チューリングテストと呼ばれ、機械の応答が特定分野の専門家の応答と区別できないというものです。これは「ファイゲンバウムテスト」とも呼ばれ、エドワード・ファイゲンバウムが2003年の論文で提唱しました。[ 106 ]

「低レベル」認知テスト

ロバート・フレンチ(1990)は、認知科学によって研究されている人間の認知の低レベル(つまり無意識)プロセスを明らかにする質問をすることで、質問者は人間と非人間の対話者を区別できると主張しています。このような質問は、人間の思考の具現化の正確な詳細を明らかにし、人間と同じように世界を経験しない限り、コンピュータの正体を暴くことができます。[ 107 ]

トータル・チューリングテスト

認知科学者ステヴァン・ハルナド[ 108 ]によって提唱されたチューリングテストの一種である「トータル・チューリングテスト」[ 3 ]は、従来のチューリングテストにさらに2つの要件を追加しています。尋問者は、被験者の知覚能力(コンピュータービジョンが必要)と物体操作能力(ロボット工学が必要)もテストできます。[ 109 ]

パウル・シュバイツァーは、ハーナドの研究はあまりにも弱すぎると主張し、それをさらに拡張して真に完全なチューリングテストを作成した。[ 110 ]

TTTTは個々の認知システムをテストするものではないことに留意することが重要です。TTTTは、特定の個人がトークンとして存在するタイプの認知アーキテクチャの全体的な能力をテストすることを目的としています。

電子健康記録

Communications of the ACM [ 111 ]に掲載されたレターでは、合成患者集団を生成するという概念が説明され、合成患者と実際の患者の違いを評価するためのチューリングテストのバリエーションが提案されています。レターは、「EHRの文脈において、人間の医師は合成患者と実際の人間の患者を容易に区別できますが、機械にそのような判断を自力で下す知能を与えることは可能でしょうか?」と述べています。さらに、レターは、「合成患者IDが公衆衛生問題となる前に、正当なEHR市場は、データの信頼性と診断価値を高めるためにチューリングテストのような技術を適用することで利益を得られる可能性があります。したがって、あらゆる新しい技術は患者の多様性を考慮する必要があり、アレン中学2年生の理科テストで採点できるよりも複雑になる可能性があります」と述べています。

最小インテリジェント信号テスト

最小知能信号テストは、クリス・マッキンストリーによって「チューリングテストの最大限の抽象化」として提案されました。[ 112 ]このテストでは、思考能力のみに焦点を当てるために、二項応答(真偽またははい/いいえ)のみが認められます。擬人化バイアスのようなテキストチャットの問題を排除し、知能のない人間の行動を模倣する必要がないため、人間の知能を超えるシステムが可能になります。ただし、質問はそれぞれ独立していなければならないため、尋問というよりはIQテストに近いものになります。これは通常、人工知能プログラムの性能を測定するための統計データを収集するために使用されます。[ 113 ]

フッター賞

フッター賞の主催者は、自然言語テキストの圧縮はチューリングテストに合格するのと同等の難しいAI問題であると考えています。データ圧縮テストは、チューリングテストのほとんどのバージョンやバリエーションに比べて、次のようないくつかの利点があります

  • 2 台のマシンのうちどちらが「よりインテリジェント」であるかを直接比較するために使用できる単一の数値が得られます。
  • コンピュータが裁判官に嘘をつく必要はない

データ圧縮をテストとして使用することの主な欠点は次のとおりです。

  • この方法では人間をテストすることはできません。
  • このテストのどの特定の「スコア」が(もしあるとすれば)人間レベルのチューリングテストに合格することに相当するのかは不明です。

圧縮またはコルモゴロフ複雑性に基づくその他のテスト

フッター賞に関連するアプローチとして、1990年代後半に登場したものに、拡張チューリングテストに圧縮問題を組み込むというものがある。[ 114 ]あるいはコルモゴロフ複雑性から完全に導出されるテストによっても実現できる。[ 115 ] この分野の他の関連テストとしては、ヘルナンデス=オラロとダウが提案している。[ 116 ]

アルゴリズムIQ(略してAIQ)は、レッグとハッターによる理論的な普遍的知能測定(ソロモンフの帰納的推論に基づく)を機械知能の実用的なテストに変換する試みである。[ 117 ]

これらのテストのいくつかの 2 つの主な利点は、人間以外の知能に適用できることと、人間のテスト担当者を必要としないことです。

エーバートテスト

チューリングテストは、2011年に映画評論家のロジャー・エーバートによって提案されたエーバートテストに影響を与えました。これは、コンピューターベースの合成音声が、イントネーション、抑揚、タイミングなどの点で、人々を笑わせるのに十分なスキルを持っているかどうかをテストするものです。[ 118 ]

ソーシャルチューリングゲーム

2023年、研究会社AI21 Labsは大規模言語モデルを活用し、 「人間かそうでないか?」というタイトルのオンライン社会実験を作成しました。[ 119 ] [ 120 ] このゲームは200万人以上によって1000万回以上プレイされました。[ 121 ]これは当時最大のチューリングスタイルの実験です。結果によると、32%の人が人間と機械を区別できませんでした。[ 122 ] [ 123 ]

機械知能の代替テスト

ラブレーステスト

ラブレーステストは、「コンピューターが何かを生み出した時のみ、コンピューターが心を持っていると信じられるべきだ」と提唱したエイダ・ラブレースにちなんで名付けられました。[ 124 ]

科学的発見

2023年、デイビッド・イーグルマンは「意味のある知能を持つシステムは科学的発見ができるべきだ」と提案しました。[ 125 ]イーグルマンの枠組みでは、レベル1の発見とは、AIが文献に散在する既存の事実(有用だがまだ意味のある知能ではない)をつなぎ合わせることを意味します。対照的に、レベル2の発見は、真に新しい枠組みに到達するために、新たな概念化、シミュレーション、検証を必要とする科学的進歩を表します

その他の提案されたテスト

AI知能の他のテストには、機械の自然言語理解能力をテストするウィノグラード・スキーマ・チャレンジがあります。[ 126 ]。また、機械が8年生の科学の質問に答える能力をテストするアレンAIサイエンスチャレンジもあります。[ 127 ] 。もう1つのテストは、機械が人間が実行できる知的タスクを実行できるかどうかを尋ねる汎用人工知能(AGI)テストです。[ 128 ]

会議

チューリング・コロキウム

1990年はチューリングの論文「計算機械と知能」の初版出版40周年にあたり、チューリングテストへの関心が再び高まりました。この年には2つの重要な出来事がありました。1つ目は4月にサセックス大学で開催されたチューリング・コロキウムで、幅広い分野の学者や研究者が集まり、チューリングテストの過去、現在、そして未来について議論しました。2つ目は、毎年開催されるローブナー賞コンペティション の創設です

ブレイ・ウィットビーは、チューリングテストの歴史における4つの大きな転換点として、1950年の「計算機械と知能」の出版、1966年のジョセフ・ワイゼンバウムELIZAの発表、1972年に初めて説明されたケネス・コルビーPARRYの作成、そして1990年のチューリングコロキウムを挙げている。[ 129 ]

2008年AISBシンポジウム

レディング大学で開催された2008年のローブナー賞授賞式と並行して、[ 130 ]人工知能と行動シミュレーション学会(AISB)は、ジョン・バーンデンマーク・ビショップフーマ・シャー、ケビン・ワーウィックの主催により、チューリングテストについて議論する1日シンポジウムを開催しました。[ 131 ] 講演者には、王立研究所所長のスーザン・グリーンフィールド男爵夫人、セルマー・ブリングスヨード、チューリングの伝記作家アンドリュー・ホッジス、意識科学者のオーウェン・ホランドが含まれていました。正式なチューリングテストについては合意に至りませんでした。しかし、ブリングスヨードは、多額の賞金があればチューリングテストはより早く合格するだろうと述べました

こちらもご覧ください

注記

  1. ^画像はSaygin 2000より改変
  2. ^ a b ( Turing 1950 )。チューリングは1950年のテキスト全体を通して「模倣ゲーム」について中心的かつ広範囲に言及しているが、その後この用語は明らかに使用を中止した。彼は「[彼の]テスト」に4回言及しており、そのうち3回は446~447ページ、1回は454ページである。また、彼はそれを「実験」と呼んでおり、1回は436ページ、2回は455ページ、2回は457ページであり、「口頭試問」(viva voce)という用語を使用している(446ページ)。下記の#Versionsも参照のこと。チューリングは論文の後半で、より正確な問いかけを次のように述べている。「これらの問いは、『ある特定のデジタルコンピュータ C に注目しよう。このコンピュータを改造して十分な記憶容量を持たせ、動作速度を適切に上げ、適切なプログラムを提供することで、C は模倣ゲームにおいて、B の役を人間が担う A の役を満足にこなせるようになるか?という問いに等しい」(チューリング 1950、442ページ)。
  3. ^ a b Oppy, Graham & Dowe, David (2011) The Turing Test Archived 20 March 2012 at the Wayback Machine . Stanford Encyclopedia of Philosophy .
  4. ^ 「The Turing Test, 1950」turing.org.uk . The Alan Turing Internet Scrapbook. 2019年4月3日時点のオリジナルよりアーカイブ。 2015年4月23日閲覧
  5. ^ a b cチューリング 1950、433ページ。
  6. ^ a b Turing 1950、pp. 442–454およびRussell & Norvig (2003、p. 948)を参照。同書では、「チューリングは、知能機械という概念に対するさまざまな反論を検討した。その中には、彼の論文が発表されてから半世紀の間に提起された反論のほとんどすべてが含まれている」とコメントしている。
  7. ^ a b c d e fセイギン 2000 .
  8. ^ラッセル&ノルヴィグ 2003年、2~3頁、948頁。
  9. ^デカルト1996、34-35ページ 。
  10. ^性質二元論の例については、クオリアを参照してください。
  11. ^唯物論は人工知能の可能性を必要とするものではない(例えば、ロジャー・ペンローズ)ことに注意する。これは二元論が必ずしもその可能性を排除しないのと同じである。(例えば、特性二元論を参照。)
  12. ^ Ayer, A. J. (2001)、「言語、真実、論理」、Nature138 (3498)、Penguin : 140、Bibcode : 1936Natur.138..823Gdoi : 10.1038/138823a0ISBN 978-0-334-04122-1, S2CID  4121089{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  13. ^ Rapaport, WJ (2003).チューリングテストに合格する方法2024年6月13日アーカイブ、Wayback Machineにて。Moor, JH (編) 『チューリングテスト』、認知システム研究、第30巻、Springer、ドルドレヒト。https://doi.org/10.1007/978-94-010-0105-2_9
  14. ^ Amini, Majid (2020年5月1日). 「Cognition as Computation: From Swift to Turing. | Humanities Bulletin | EBSCOhost」 . openurl.ebsco.com . 3 (1): 43. 2024年6月13日時点のオリジナルよりアーカイブ。 2024年6月13日閲覧
  15. ^スウィフト、ジョナサン (1726). 「ブロブディンナグへの航海。第3章」 . en.wikisource.org . 2024年6月13日閲覧
  16. ^ a bスヴィルピス、ジャニス (2008). 「SFにおけるチューリングテストの前史」.サイエンスフィクション研究. 35 (3): 430– 449. doi : 10.1525/sfs.35.3.0430 . ISSN 0091-7729 . JSTOR 25475177 .  
  17. ^ワンズブロー、アレクス(2021年)『資本主義と魔法のスクリーン:デジタル時代の神話と寓話』ニューヨーク:ブルームズベリー・アカデミック、114頁。ISBN 978-1-5013-5639-1 OCLC  1202731640
  18. 1956年のダートマス会議は「AIの誕生」と広く考えられています。( Crevier 1993、49ページ)
  19. ^マコーダック 2004、95ページ。
  20. ^コープランド 2003、1ページ。
  21. ^コープランド 2003、2ページ。
  22. ^「インテリジェント・マシナリー」(1948年)はチューリングによって出版されず、1968年まで出版されなかった。
    • エヴァンス、ADJ; ロバートソン(1968)『サイバネティクス:主要論文』、ユニバーシティパークプレス
  23. ^チューリング 1948年、412ページ。
  24. ^ 1948年、チューリングは大学時代の同僚であるDG・チャンパーノーンと共同で、当時まだ存在していなかったコンピュータ用のチェスプログラムを書き始めた。1952年、プログラムを実行できるほど高性能なコンピュータがなかったため、プログラムをシミュレートした対局を行った。この対局は1手あたり約30分を要した。この対局は記録されており、チューリングの同僚であるアリック・グレニーには敗れたが、チャンパーノーンの妻との対局では勝ったと言われている。
  25. ^チューリング 1948年、p. .
  26. ^ Harnad 2004、1ページ。
  27. ^ a b c d eチューリング 1950、434ページ。
  28. ^ a bシャー&ワーウィック 2010a .
  29. ^チューリング 1950、446ページ。
  30. ^ Turing 1952 , pp. 524–525. チューリングは「man」という性別と人間としての「man」を区別していないように思われる。前者の場合、この定式化は模倣ゲームに近いが、後者の場合、テストの現在の描写に近い。
  31. ^ a bサール 1980 .
  32. ^サールの中国語の部屋に対しては、多くの反論がある。いくつか例を挙げよう。
  33. ^ M. ビショップ&J. プレストン(編)(2001)サールの中国語の部屋論に関するエッセイ、オックスフォード大学出版局。
  34. ^セイギン 2000、479ページ。
  35. ^ 「ロボットは退屈:AI搭載のぎこちない初デート」 BBCニュース、2020年11月1日。 2025年1月12日閲覧
  36. ^サンドマン 2003 .
  37. ^ローブナー 1994 .
  38. ^ a b c「人工的な愚かさ」『エコノミスト』第324巻第7770号、1992年8月1日、14ページ。
  39. ^ a b c Shapiro 1992、p. 10–11およびShieber 1994、その他。
  40. ^ a bシーバー 1994、77ページ。
  41. ^ 「チューリングテスト、シーズン4、エピソード3」。Scientific American Frontiers。Chedd -Angier Production Company。1993-1994年。PBS 2006年1月1日時点のオリジナルよりアーカイブ。
  42. ^ 「AIを人間らしくしようと競い合う愛好家たち」 BBCニュース、2019年9月13日。 2025年1月12日閲覧
  43. ^ "reCAPTCHA" . Google . 2024年9月27日閲覧
  44. ^ 「reCAPTCHA v3 ガイド」 . Friendly Captcha . 2026年1月5日閲覧
  45. ^ Masnick, Mike (2014年6月9日). 「いいえ、『スーパーコンピュータ』は初めてチューリングテストに合格したわけではありません。誰もがもっとよく知っておくべきです」 . 2024年9月26日閲覧
  46. ^ a b cワイゼンバウム 1966年、42ページ。
  47. ^トーマス 1995、112ページ。
  48. ^ a b c d Berry, David M. (2023年11月6日). 「計算の限界:ジョセフ・ワイゼンバウムとELIZAチャットボット」 . Weizenbaum Journal of the Digital Society . 3 (3). doi : 10.34669/WI.WJDS/3.3.2 . ISSN 2748-5625 . 
  49. ^ワイゼンバウム 1966、37ページ。
  50. ^ボーデン 2006、370ページ。
  51. ^ Colby et al. 1972、220ページ。
  52. ^パーソンズ、ポール、ディクソン、ゲイル (2016). 『本当に知っておくべき50のアイデア:科学』ロンドン:クエルカス、p.65. ISBN 978-1-78429-614-8
  53. ^ 「コンピューターチャットボット「ユージン・グーストマン」がチューリングテストに合格|ZDNET」ZDNet2024年9月26日閲覧
  54. ^ Masnick, Mike (2014年6月9日). 「いいえ、『スーパーコンピュータ』は初めてチューリングテストに合格したわけではありません。誰もがもっとよく知っておくべきです」 . 2024年9月26日閲覧
  55. ^ Dan Williams (2022年6月9日). 「Blaise Agüera y Arcasによると、人工ニューラルネットワークは意識に向けて大きな進歩を遂げている」 . The Economist . 2022年6月9日時点のオリジナルよりアーカイブ。 2022年6月13日閲覧
  56. ^ Nitasha Tiku (2022年6月11日). 「同社のAIが生き返ったと考えるGoogleのエンジニア」ワシントン・ポスト. 2022年6月11日時点のオリジナルよりアーカイブ。 2022年6月13日閲覧
  57. ^ジェレミー・カーン (2022年6月13日). 「AI専門家は、Google研究者のチャットボットが『知覚力』を持つようになったという主張はばかげているが、この分野の大きな問題を浮き彫りにしている」 . Fortune . 2022年6月13日時点のオリジナルよりアーカイブ。 2022年6月13日閲覧
  58. ^ Biever, Celeste (2023年7月25日). 「ChatGPTがチューリングテストを破る — AIを評価する新たな方法の競争が始まる」 . Nature . 619 (7971): 686– 689. Bibcode : 2023Natur.619..686B . doi : 10.1038/d41586-023-02361-7 . PMID 37491395. 2023年7月26日時点のオリジナルよりアーカイブ2024年3月26日閲覧 
  59. ^スコット、キャメロン. 「研究結果ChatGPTの最新ボットは人間のように振る舞うが、より優れていることが判明 | スタンフォード大学人文科学大学院」humsci.stanford.edu2024年3月26日時点のオリジナルよりアーカイブ。 2024年3月26日閲覧
  60. ^ Mei, Qiaozhu; Xie, Yutong; Yuan, Walter; Jackson, Matthew O. (2024年2月27日). 「AIチャットボット行動が人間に類似しているかどうかのチューリングテスト」 . Proceedings of the National Academy of Sciences . 121 (9) e2313925121. Bibcode : 2024PNAS..12113925M . doi : 10.1073/pnas.2313925121 . ISSN 0027-8424 . PMC 10907317. PMID 38386710 .   
  61. ^ Jones, Cameron R.; Bergen, Benjamin K. (2025年3月31日) 「大規模言語モデルはチューリングテストに合格するarXiv : 2503.23674
  62. ^ a b cトライガー 2000 .
  63. ^セイギン、ロバーツ、ベーバー、2008 年
  64. ^ a bムーア 2003 .
  65. ^トライガー 2000、99ページ。
  66. ^スターレット 2000 .
  67. ^シャー 2011 .
  68. ^ジェノバ 1994ヘイズ&フォード 1995ハイル 1998ドレイファス 1979
  69. ^チューリング 1948年、431ページ。
  70. ^プラウドフット 2013、398ページ。
  71. ^ダンジガー 2022年.
  72. ^ a b cチューリング 1950、442ページ。
  73. ^ R. エプスタイン、G. ロバーツ、G. ポーランド(編)『チューリングテストの解析:思考するコンピュータの探求における哲学的・方法論的課題』シュプリンガー:ドルドレヒト、オランダ
  74. ^トンプソン、クライヴ(2005年7月)。「もう一つのチューリングテスト」第13.07号。WIRED2011年8月19日時点のオリジナルよりアーカイブ。 2011年9月10日閲覧人生のほぼすべてをゲイであることを隠して過ごしたチューリングは、真のアイデンティティを偽り続けることの社会的困難を痛感していたに違いない。そして、数十年にわたってAI科学者たちがチューリングの性別をねじ曲げるテストを無視してきたという事実は、皮肉なことに、3人の大学生世代の女性によって取り上げられたのだ。完全版は2019年3月23日にWayback Machineアーカイブされています)。
  75. ^コルビーら 1972 .
  76. ^ a bスワースキー 2000 .
  77. ^サイギン&チセクリ 2002 .
  78. ^チューリング 1950年、「新しい問題批判」より。
  79. ^ハウゲランド 1985、8ページ。
  80. ^「これら6つの分野はAIの大部分を占めている」とスチュアート・J・ラッセルピーター・ノーヴィグは述べている。ラッセル&ノーヴィグ 2003、3ページ
  81. ^アーバン、ティム(2015年2月)「AI革命:私たちの不滅か絶滅か」 Wait But Why。2019年3月23日時点のオリジナルよりアーカイブ2015年4月5日閲覧。
  82. ^ Smith, GW (2015年3月27日). 「アートと人工知能」 . ArtEnt. 2017年6月25日時点のオリジナルよりアーカイブ2015年3月27日閲覧。
  83. ^ Marcus, Gary (2014年6月9日). 「チューリングテストの後に何が来るのか?」 . The New Yorker . 2022年1月1日時点のオリジナルよりアーカイブ。 2021年12月16日閲覧
  84. ^シャー&ワーウィック 2010j .
  85. ^ Kevin Warwick、Huma Shah (2014年6月). 「チューリングテストにおける人間の誤認」 . Journal of Experimental and Theoretical Artificial Intelligence . 27 (2): 123– 135. Bibcode : 2015JETAI..27..123W . doi : 10.1080/0952813X.2014.921734 . S2CID 45773196 . 
  86. ^ Saygin & Cicekli 2002、227–258 ページ。
  87. ^チューリング 1950、448ページ。
  88. ^人間よりも知能の高い機械を評価するために設計されたチューリングテストのいくつかの代替手段:
  89. ^ラッセルとノーヴィグ(2003、958〜960ページ)は、サールの議論とチューリングの答えを同一視している。
  90. ^チューリング 1950 .
  91. ^ a bラッセル&ノルヴィグ 2003、p.3。
  92. ^チューリング 1950、『模倣ゲーム』の見出しで、彼はこう書いている。「そのような定義を試みるかわりに、私はこの問いを、それに密接に関連し、比較的明確な言葉で表現された別の問いに置き換えることにする。」
  93. ^マッカーシー、ジョン(1996)「人工知能の哲学」AIと哲学の共通点とは?2019年4月5日時点のオリジナルよりアーカイブ、 2009年2月26日閲覧。
  94. ^ Brynjolfsson, Erik (2022年5月1日). 「チューリングの罠:人間のような人工知能の将来性と危険性」 . Daedalus . 151 (2): 272– 287. doi : 10.1162/daed_a_01915 .
  95. ^ガードナー、H. (2011). 心の枠組み:多重知能の理論. ハシェット英国
  96. ^ケビン・ワーウィック、ヒューマ・シャー(2017年3月4日)「チューリングの模倣ゲームにおける修正第5条の採用」(PDF) . Journal of Experimental & Theoretical Artificial Intelligence . 29 (2): 287– 297. Bibcode : 2017JETAI..29..287W . doi : 10.1080/0952813X.2015.1132273 . ISSN 0952-813X . S2CID 205634569 .  
  97. ^ウォーウィック、ケビン、シャー、ヒューマ(2015年3月4日)チューリングテストにおける人間の誤認」実験理論人工知能ジャーナル。27 (2): 123– 135。Bibcode : 2015JETAI..27..123W。doi : 10.1080 / 0952813X.2014.921734。ISSN 0952-813X。S2CID 45773196  
  98. ^ 「チューリングの罠:人間のような人工知能の可能性と危険性」スタンフォード・デジタル・エコノミー・ラボ
  99. ^ビオン 1979 .
  100. ^ヒンシェルウッド 2001 .
  101. ^ Malik, Jitendra ; Mori, Greg, Breaking a Visual CAPTCHA2019年3月23日時点のオリジナルよりアーカイブ。 2009年11月21日閲覧。
  102. ^ Pachal, Pete、「Captcha FAIL: Researchers Crack the Web's Most Popular Turing Test」2018年12月3日時点のオリジナルよりアーカイブ、 2015年12月31日閲覧。
  103. ^ Tung, Liam, Google algorithm busts CAPTCHA with 99.8 percent accuracy , archived from the original on 23 March 2019 , retrieved 31 December 2015
  104. ^ Ghosemajumder, Shuman、「模倣ゲーム:安全保障の新たな最前線」、2019年3月23日時点のオリジナルよりアーカイブ。 2015年12月31日閲覧。
  105. ^シュワニンガー、アーサー・C.(2022)「哲学する機械 ― チューリングテストの仕様」『哲学』50(3):1437–1453doi10.1007/s11406-022-00480-5S2CID 247282718 
  106. ^ McCorduck 2004 , pp. 503–505, Feigenbaum 2003。主題専門家テストについてはKurzweil (2005)でも言及されている。
  107. ^フレンチ、ロバート・M.、「潜在認知とチューリングテストの限界」、マインド99393):53-65
  108. ^ Gent, Edd (2014), The Turing Test: brain-inspired computing's multiple-path approach2019年3月23日時点のオリジナルよりアーカイブ、 2018年10月18日閲覧。
  109. ^ラッセル&ノルヴィグ 2010、3ページ。
  110. ^ 「真に完全なチューリングテスト」
  111. ^ Cacmスタッフ (2017). 「人工知能から知能への飛躍」Communications of the ACM 61 : 10–11 . doi : 10.1145 /3168260 .
  112. ^ “Arcondev: Message: Re: [arcondev] MIST = fog?” 2013年6月30日時点のオリジナルよりアーカイブ。 2023年12月28日閲覧
  113. ^ McKinstry, Chris (1997)、「Minimum Intelligent Signal Test: An Alternative Turing Test」Canadian Artificial Intelligence (41)、2019年3月31日時点のオリジナルよりアーカイブ、 2011年5月4日閲覧。
  114. ^ DL Dowe & AR Hajek (1997)、「チューリングテストの計算拡張」Australasian Cognitive Science Societyの第4回会議の議事録、 2011年6月28日時点のオリジナルよりアーカイブ、 2009年7月21日閲覧
  115. ^ホセ・ヘルナンデス=オラロ (2000)、「チューリングテストを超えて」、論理・言語・情報ジャーナル9 (4): 447– 466、CiteSeerX 10.1.1.44.8943doi : 10.1023/A:1008367325700S2CID 14481982  
  116. ^ヘルナンデス・オラロ & ダウ 2010
  117. ^普遍的知能尺度の近似値、シェーン・レッグとジョエル・ベネス、2011年ソロモンオフ記念会議
  118. ^ Alex_Pasternack (2011年4月18日). 「MacBookがロジャー・イーバートの声を聴かせたかもしれないが、iPodが彼の命を救った(動画)」 . マザーボード. 2011年9月6日時点のオリジナルよりアーカイブ。 2011年9月12日閲覧彼はこれをチューリングのAI基準にちなんで「イーバート・テスト」と呼んでいる…
  119. ^ Key, Alys (2023年4月21日). 「誰かが人間かAIか分かりますか?」イブニング・スタンダード. 2023年8月2日時点のオリジナルよりアーカイブ。 2023年8月2日閲覧
  120. ^ 「大規模なチューリングテストは、AIと人間を区別できるのはほんのわずかであることを示す」ニューサイエンティスト誌2024年7月22日時点のオリジナルよりアーカイブ。 2023年8月2日閲覧
  121. ^ Biever, Celeste (2023年7月25日). 「ChatGPTがチューリングテストを破る ― AIを評価する新たな方法の競争が始まる」 . Nature . 619 (7971): 686– 689. Bibcode : 2023Natur.619..686B . doi : 10.1038/d41586-023-02361-7 . PMID 37491395 . 
  122. ^ 「人間とAIボットを区別できるか?『人間か否か』オンラインゲームで結果が判明」 ZDNET 2024年5月6日時点のオリジナルよりアーカイブ2023年8月2日閲覧
  123. ^プレス、ギル。「AIチャットボットか人間か?32%は判断できない」フォーブス2024年7月9日時点のオリジナルよりアーカイブ。 2023年8月2日閲覧
  124. ^ Bringsjord, S., Bello, P., & Ferrucci, D. (2003). 創造性、チューリングテスト、そして(より良い)ラブレステスト. JH Moor (編)『チューリングテスト:人工知能の捉えどころのない基準』(pp. 215–239​​)ドルドレヒト:Springer Netherlands.
  125. ^イーグルマン、デイビッド (2023). 「AIにおける人間レベルの知能のテスト提案」 . PsyArXiv .
  126. ^ Levesque, HJ, Davis, E., & Morgenstern, L. (2012年5月17日). ウィノグラード・スキーマ・チャレンジ. https://cdn.aaai.org/ocs/4492/4492-21843-1-PB.pdf
  127. ^ Schoenick, C., Clark, P., Tafjord, O., Turney, P., & Etzioni, O. (2017). Allen AI Science Challengeでチューリングテストを超えて. Communications of the ACM, 60(9), 60–64.
  128. ^ボストロム、N.(2014)『スーパーインテリジェンス:道筋、危険、戦略』オックスフォード大学出版局。
  129. ^ウィットビー 1996、53ページ。
  130. ^ 「歴史の一部になろう ― レディングコミュニティ、機械を人間としてテスト」レディング大学2008年9月17日. 2025年11月19日閲覧
  131. ^ AISB 2008 Symposium on the Turing Test、Society for the Study of Artificial Intelligence and the Simulation of Behaviour、2009年3月18日時点のオリジナルよりアーカイブ2009年3月29日閲覧。

参考文献

  • チューリング、アラン(1952年)「自動計算機は考えると言えるか?」コープランド、B・ジャック(編)『チューリングのエッセンシャル:コンピュータ時代を生み出したアイデア』オックスフォード:オックスフォード大学出版局、ISBN 978-0-19-825080-7{{citation}}ISBN / 日付の非互換性(ヘルプ
  • ワイゼンバウム、ジョセフ(1966年1月)、「ELIZA – 人間と機械の間の自然言語コミュニケーションの研究のためのコンピュータプログラム」、Communications of the ACM9(1):36–45doi10.1145/365153.365168S2CID  1896290
  • ウィットビー、ブレイ(1996年)「チューリングテスト:AIの最大の袋小路?」ピーター・ミリカン、アンディ・クラーク(編)『機械と思考:アラン・チューリングの遺産』第1巻、オックスフォード大学出版局、  53~ 62頁、ISBN 978-0-19-823876-8
  • Zylberberg, A.; Calot, E. (2007)、「遺伝的アルゴリズムに基づく状態指向領域における嘘の最適化」、第6回イベロアメリカソフトウェア工学シンポジウム論文集11~ 18、ISBN 978-9972-2885-1-7{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク

さらに詳しい情報