自然言語処理の歴史

自然言語処理の歴史は、 自然言語処理の進歩を記述するものです。機械翻訳の歴史、音声認識の歴史、そして人工知能の歴史と一部重複しています。

初期の歴史

機械翻訳の歴史は17世紀に遡ります。当時、ライプニッツやデカルトといった哲学者たちは、言語間の単語を関連付けるコードを提案しました。しかし、これらの提案はいずれも理論的なものであり、実際に機械が開発されることはありませんでした。

「翻訳機」に関する最初の特許は1930年代半ばに申請されました。ジョルジュ・アルトルーニによる提案の一つは、紙テープを用いた単純な自動二言語辞書でした。ロシア人のピョートル・トロヤンスキーによるもう一つの提案は、より詳細なものでした。トロヤンスキーの提案には、二言語辞書と、エスペラント語に基づく言語間の文法的な役割を扱う方法が含まれていました。^[1]^[2]

論理期間

1950年、アラン・チューリングは有名な論文「計算機と知能」を発表し、知能の基準として現在チューリングテストと呼ばれるものを提案しました。この基準は、コンピュータプログラムが人間の審査員とリアルタイムで筆記による会話を行い、その会話内容のみに基づいて審査員がプログラムと生身の人間を信頼性を持って区別できないほど、人間を模倣する能力に基づいています。

1957年、ノーム・チョムスキーの『統語構造』は、統語構造の規則に基づいたシステムである「普遍文法」によって言語学に革命をもたらしました。 ^[3]

1954年にジョージタウン大学で行われた実験では、60以上のロシア語の文を英語に完全自動翻訳する実験が行われました。研究者たちは、3～5年以内に機械翻訳は解決済みの問題になると主張しました。^[4] しかし、実際の進歩ははるかに遅く、 1966年のALPAC報告書で10年間の研究が期待に応えられなかったと報告された後、機械翻訳への資金提供は大幅に削減されました。1980年代後半に最初の統計的機械翻訳システムが開発されるまで、機械翻訳に関するさらなる研究はほとんど行われませんでした。

1960 年代に開発された、特に成功した NLP システムには、制限された語彙を持つ制限された「ブロックの世界」で動作する自然言語システムであるSHRDLUがあります。

1969年、ロジャー・シャンクは自然言語理解のための概念依存理論を発表しました。^{[5]このモデルは、}シドニー・ラムの研究に部分的に影響を受け、ロバート・ウィレンスキー、ウェンディ・レーナート、ジャネット・コロドナーなど、イェール大学のシャンクの学生によって広く利用されました。

1970年、ウィリアム・A・ウッズは自然言語入力を表現するために拡張遷移ネットワーク（ATN）を導入しました。 ^{[6] ATNは}句構造規則の代わりに、再帰的に呼び出される同等の有限状態オートマトン群を使用しました。ATNと、そのより一般的な形式である「一般化ATN」は、その後も長年使用され続けました。1970年代には、多くのプログラマーが「概念オントロジー」の作成を始めました。これは、現実世界の情報をコンピュータが理解できるデータに構造化するものです。例としては、MARGIE（Schank、1975年）、SAM（Cullingford、1978年）、PAM（Wilensky、1978年）、TaleSpin（Meehan、1976年）、QUALM（Lehnert、1977年）、Politics（Carbonell、1979年）、Plot Units（Lehnert、1981年）などが挙げられます。この間、PARRY、Racter、Jabberwacky を含む多くのチャッターボットが開発されました。

統計期間

1980 年代まで、ほとんどの NLP システムは複雑な手書きのルールセットに基づいていました。しかし、1980 年代後半から、言語処理用の機械学習アルゴリズムの導入により、NLP に革命が起こりました。これは、ムーアの法則による計算能力の着実な向上と、言語処理への機械学習アプローチの基礎となるようなコーパス言語学を理論的に阻害するチョムスキー派言語理論 (例:変形文法)の優位性が徐々に低下したことの両方によるものです。^[7]決定木など、最も初期に使用された機械学習アルゴリズムの一部は、既存の手書きルールに類似したハードな if-then ルールのシステムを生成しました。しかし、入力データを構成する特徴に実数値の重み付けを行うことでソフトで確率的な決定を行う統計モデルに研究の焦点が置かれるようになってきました。多くの音声認識システムが現在利用しているキャッシュ言語モデルは、このような統計モデルの一例です。このようなモデルは、未知の入力、特にエラーを含む入力（実世界のデータでは非常に一般的です）に対して一般的に堅牢性が高く、複数のサブタスクで構成される大規模なシステムに統合された場合には、より信頼性の高い結果を生成します。

データセット

統計的アプローチの出現は、計算能力の向上と大規模データセットの利用可能性の両方によって促進されました。当時、大規模な多言語コーパスが登場し始めていました。特に注目すべきは、カナダ議会と欧州連合によって、すべての政府手続きを対応する政府システムのすべての公用語に翻訳することを求める法律の結果として、いくつかのコーパスが作成されたことです。

初期の注目すべき成功の多くは機械翻訳の分野で達成されました。1993年には、IBMのアライメントモデルが統計的機械翻訳に使用されました。^[8]以前の機械翻訳システムは、計算言語学者によって手動でコード化された記号的なシステムでしたが、これらのシステムは統計的であり、大規模なテキストコーパスから自動的に学習することができました。これらのシステムは、利用可能なコーパスが小規模な場合にはうまく機能しないため、データ効率の高い手法は引き続き研究開発の対象となっています。

2001年には、インターネットから収集された10億語の大規模テキストコーパス（当時は「非常に大規模」と呼ばれていた）が単語の曖昧性解消に使用されました。^[9]

大規模でラベル付けされていないデータセットを活用するために、教師なし学習および自己教師学習用のアルゴリズムが開発されました。一般的に、このタスクは教師あり学習よりもはるかに困難であり、与えられた入力データ量に対して得られる結果の精度は一般的に低くなります。しかし、膨大な量の非注釈データ（とりわけワールドワイドウェブのコンテンツ全体を含む）が利用可能であり、それらのデータが劣った結果を補うことはよくあります。

神経期

ニューラル言語モデルは1990年代に開発されました。1990年代、リカレントニューラルネットワークを用いたエルマンネットワークは、トレーニングセット内の各単語を単語埋め込みと呼ばれるベクトルとして、また語彙全体をベクトルデータベースとして符号化しました。これにより、単純な多層パーセプトロンでは対応できないシーケンス予測などのタスクを実行できるようになりました。静的埋め込みの欠点は、同音異義語の複数の意味を区別できないことでした。^[10]

ヨシュア・ベンジオは2000年に最初のニューラル確率言語モデルを開発しました。^[11]新しいアルゴリズム、より大きなデータセットの利用可能性、より高い処理能力により、より大規模な言語モデルのトレーニングが可能になりました。

Attentionメカニズムは、2014年にBahdanauらによって導入されました。^{[12]この研究は、2017年に}Transformerアーキテクチャを紹介した有名な論文「Attention is All You Need」 ^[13]の基礎を築きました。大規模言語モデル（LLM）の概念は2010年代後半に登場しました。LLMは、膨大な量のテキストを用いて自己教師学習によって訓練された言語モデルです。初期の公開LLMは数億のパラメータを持っていましたが^[14]、この数は急速に数十億、さらには数兆にまで増加しました。^[15]

近年、ディープラーニングと大規模言語モデルの進歩により、自然言語処理の能力が大幅に向上し、医療、顧客サービス、コンテンツ生成などの分野で幅広い応用が進んでいます。^[16]

ソフトウェア

ソフトウェア	年	クリエイター	説明
ジョージタウンの実験	1954	ジョージタウン大学とIBM	60以上のロシア語の文章を英語に完全に自動翻訳する作業が含まれていました。
学生	1964	ダニエル・ボブロウ	高校の代数の文章題を解くことができた。^[17]
エリザ	1964	ジョセフ・ワイゼンバウム	ロジャーズ派の心理療法士を模倣し、いくつかの文法規則を使って彼女の返答を言い換えた。^[18]
シュルドル	1970	テリー・ウィノグラッド	制限された語彙を持つ制限された「ブロックの世界」で動作する自然言語システムは非常にうまく機能した。
パリー	1972	ケネス・コルビー	おしゃべりボット
KL-ONE	1974	ソンドハイマーら	意味ネットワークとフレームの伝統に基づく知識表現システム。フレーム言語です。
マージー	1975	ロジャー・シャンク
TaleSpin（ソフトウェア）	1976	ミーハン
クァルム		レーナート
ライフル/ラダー	1978	ヘンドリックス	米海軍の船舶に関する情報のデータベースへの自然言語インターフェース。
SAM（ソフトウェア）	1978	カリングフォード
PAM（ソフトウェア）	1978	ロバート・ウィレンスキー
政治（ソフトウェア）	1979	カルボネル
プロット単位（ソフトウェア）	1981	レーナート
ジャバーワッキー	1982	ロロ・カーペンター	「自然な人間の会話を、面白く、面白く、ユーモラスな方法でシミュレートする」ことを目的としたチャットボット。
MUMBLE（ソフトウェア）	1982	マクドナルド
ラクター	1983	ウィリアム・チェンバレンとトーマス・エッター	英語の散文をランダムに生成するチャットボット。
モプトランス^[19]	1984	リティネン
KODIAK（ソフトウェア）	1986	ウィレンスキー
Absity（ソフトウェア）	1987	ハースト
スバイトソ博士	1991	クリエイティブラボ
IBMワトソン	2006	IBM	2011 年 2 月に人間の最強プレイヤーを破り、 Jeopardy!コンテストで優勝した質問応答システム。
シリ	2011	りんご	Apple が開発した仮想アシスタント。
コルタナ	2014	マイクロソフト	Microsoft が開発した仮想アシスタント。
アマゾンアレクサ	2014	アマゾン	Amazon が開発した仮想アシスタント。
Googleアシスタント	2016	グーグル	Google が開発した仮想アシスタント。
チャットGPT	2022	オープンAI	生成チャットボット。

参考文献

^ “Georges Artsrouni”. machinetranslate.org . 2025年7月10日閲覧。
^ ハッチンズ、ジョン、ロフツキー、エフゲニー（2000）、ペトル・ペトロヴィッチ・トロヤンスキー（1894-1950）：機械翻訳の忘れられた先駆者、機械翻訳{{citation}}: CS1 メンテナンス: 場所の発行元が見つかりません (リンク)
^ 「SEM1A5 - パート1 - NLPの簡単な歴史」。 2010年6月25日閲覧。
^ ハッチンズ、J.（2005）
^ Roger Schank , 1969,自然言語の概念的依存関係パーサーProceedings of the 1969 conference on Computational linguistics, Sång-Säby, Sweden, 1-3ページ
^ ウッズ、ウィリアム・A（1970）「自然言語解析のための遷移ネットワーク文法」ACM通信13（10）：591-606 [1]
^ チョムスキー言語学は、コーパス言語学のように現実世界のデータに生じる典型的な現象を体系的に調査するのではなく、思考実験を用いて典型的に作り出される、理論モデルの限界を強調する「コーナーケース」（数学における病理学的現象に相当）の調査を推奨する。このような現実世界のデータのコーパスの作成と使用は、NLPのための機械学習アルゴリズムの基本的な部分である。さらに、いわゆる「刺激の貧困」論などのチョムスキー言語学の理論的根拠は、機械学習で典型的に使用されるような一般的な学習アルゴリズムは言語処理では成功しないことを意味する。結果として、チョムスキーのパラダイムは、このようなモデルの言語処理への適用を妨げた。
^ ブラウン、ピーター F. (1993). 「統計的機械翻訳の数学：パラメータ推定」.計算言語学(19): 263–311 .
^ Banko, Michele; Brill, Eric (2001). 「自然言語の曖昧性解消のための大規模コーパスへのスケーリング」.第39回計算言語学協会年次会議議事録 - ACL '01 . 米国ニュージャージー州モリスタウン: 計算言語学協会: 26–33 . doi : 10.3115/1073012.1073017 . S2CID 6645623.
^ エルマン, ジェフリー・L. (1990年3月). 「時間の中に構造を見つける」 .認知科学. 14 (2): 179– 211. doi :10.1207/s15516709cog1402_1. S2CID 2763403.
^ Bengio, Yoshua (2003), A Neural Probabilistic Language Model , —, vol. 3 (— ed.), Montreal, Canada: Journal of Machine Learning Research, p. 1137–1155, doi : 10.1162/153244303322533223
^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014). 「アラインメントと翻訳の共同学習によるニューラル機械翻訳」. ICLR . arXiv : 1409.0473 .
^ Vaswani, Ashish ; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N ; Kaiser, Łukasz; Polosukhin, Illia (2017). 「Attention is All you Need」（PDF） . Advances in Neural Information Processing Systems . 30. Curran Associates, Inc. 2024年2月21日時点のオリジナルよりアーカイブ（PDF） . 2024年1月21日閲覧。
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (2020年12月). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, MF; Lin, H. (編). 「言語モデルは少数ショット学習器である」(PDF) . Advances in Neural Information Processing Systems . 33. Curran Associates, Inc.: 1877– 1901. arXiv : 2005.14165 . 2023年11月17日時点のオリジナルよりアーカイブ(PDF) . 2023年3月14日閲覧.
^ Dai, Andrew M; Du, Nan (2021年12月9日). 「GLaMによるコンテキスト内学習の効率化」. ai.googleblog.com . 2023年3月12日時点のオリジナルよりアーカイブ。2023年3月9日閲覧。
^ Gruetzemacher, Ross (2022-04-19). 「自然言語処理の力」.ハーバード・ビジネス・レビュー. ISSN 0017-8012 . 2024年12月7日閲覧。
^ McCorduck 2004, p. 286、Crevier 1993, pp. 76-79、Russell & Norvig 2003, p. 19
^ マコーダック 2004, 291–296頁、クレヴィエ 1993, 134−139頁
^ ジャネット・L・コロドナー、クリストファー・K・リースベック著『経験、記憶、推論』心理学出版社、2014年再版

参考文献

クレヴィエ、ダニエル(1993). 『AI：人工知能への激動の探求』ニューヨーク、ニューヨーク: BasicBooks. ISBN 0-465-02997-3。
マコーダック、パメラ（2004年）、考える機械（第2版）、マサチューセッツ州ネイティック：AKピーターズ社、ISBN 978-1-56881-205-2、OCLC 52197627。
ラッセル、スチュアート・J.、ノーヴィグ、ピーター（2003年）、人工知能：現代的アプローチ（第2版）、アッパーサドルリバー、ニュージャージー：プレンティスホール、ISBN 0-13-790395-2。

[1] “Georges Artsrouni”. machinetranslate.org . 2025年7月10日閲覧。

[2] ハッチンズ、ジョン、ロフツキー、エフゲニー（2000）、ペトル・ペトロヴィッチ・トロヤンスキー（1894-1950）：機械翻訳の忘れられた先駆者、機械翻訳{{citation}}: CS1 メンテナンス: 場所の発行元が見つかりません (リンク)

[3] 「SEM1A5 - パート1 - NLPの簡単な歴史」。 2010年6月25日閲覧。

[4] ハッチンズ、J.（2005）

[5] Roger Schank , 1969,自然言語の概念的依存関係パーサーProceedings of the 1969 conference on Computational linguistics, Sång-Säby, Sweden, 1-3ページ

[6] ウッズ、ウィリアム・A（1970）「自然言語解析のための遷移ネットワーク文法」ACM通信13（10）：591-606 [1]

[7] チョムスキー言語学は、コーパス言語学のように現実世界のデータに生じる典型的な現象を体系的に調査するのではなく、思考実験を用いて典型的に作り出される、理論モデルの限界を強調する「コーナーケース」（数学における病理学的現象に相当）の調査を推奨する。このような現実世界のデータのコーパスの作成と使用は、NLPのための機械学習アルゴリズムの基本的な部分である。さらに、いわゆる「刺激の貧困」論などのチョムスキー言語学の理論的根拠は、機械学習で典型的に使用されるような一般的な学習アルゴリズムは言語処理では成功しないことを意味する。結果として、チョムスキーのパラダイムは、このようなモデルの言語処理への適用を妨げた。

[U4RiN-8] ブラウン、ピーター F. (1993). 「統計的機械翻訳の数学：パラメータ推定」.計算言語学(19): 263–311 .

[2001_very_very_large_corpora-9] Banko, Michele; Brill, Eric (2001). 「自然言語の曖昧性解消のための大規模コーパスへのスケーリング」.第39回計算言語学協会年次会議議事録 - ACL '01 . 米国ニュージャージー州モリスタウン: 計算言語学協会: 26–33 . doi : 10.3115/1073012.1073017 . S2CID 6645623.

[1990_ElmanPaper-10] エルマン, ジェフリー・L. (1990年3月). 「時間の中に構造を見つける」 .認知科学. 14 (2): 179– 211. doi :10.1207/s15516709cog1402_1. S2CID 2763403.

[11] Bengio, Yoshua (2003), A Neural Probabilistic Language Model , —, vol. 3 (— ed.), Montreal, Canada: Journal of Machine Learning Research, p. 1137–1155, doi : 10.1162/153244303322533223

[12] Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014). 「アラインメントと翻訳の共同学習によるニューラル機械翻訳」. ICLR . arXiv : 1409.0473 .

[13] Vaswani, Ashish ; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N ; Kaiser, Łukasz; Polosukhin, Illia (2017). 「Attention is All you Need」（PDF） . Advances in Neural Information Processing Systems . 30. Curran Associates, Inc. 2024年2月21日時点のオリジナルよりアーカイブ（PDF） . 2024年1月21日閲覧。

[few-shot-learners2-14] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (2020年12月). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, MF; Lin, H. (編). 「言語モデルは少数ショット学習器である」(PDF) . Advances in Neural Information Processing Systems . 33. Curran Associates, Inc.: 1877– 1901. arXiv : 2005.14165 . 2023年11月17日時点のオリジナルよりアーカイブ(PDF) . 2023年3月14日閲覧.

[glam-blog-15] Dai, Andrew M; Du, Nan (2021年12月9日). 「GLaMによるコンテキスト内学習の効率化」. ai.googleblog.com . 2023年3月12日時点のオリジナルよりアーカイブ。2023年3月9日閲覧。

[16] Gruetzemacher, Ross (2022-04-19). 「自然言語処理の力」.ハーバード・ビジネス・レビュー. ISSN 0017-8012 . 2024年12月7日閲覧。

[17] McCorduck 2004, p. 286、Crevier 1993, pp. 76-79、Russell & Norvig 2003, p. 19

[18] マコーダック 2004, 291–296頁、クレヴィエ 1993, 134−139頁

[19] ジャネット・L・コロドナー、クリストファー・K・リースベック著『経験、記憶、推論』心理学出版社、2014年再版