機械翻訳の歴史

機械翻訳は、テキストまたは音声をある自然言語から別の自然言語に翻訳するためのソフトウェアの使用を調査する 計算言語学のサブフィールドです。

機械翻訳は1950年代に研究の現場で現実のものとなったが、この主題に関する記述は17世紀にまで遡る。1954年に60以上のロシア語の文章を英語に完全自動翻訳することに成功したジョージタウン実験は、記録に残る最も初期のプロジェクトの一つであった。 [ 1 ] [ 2 ]ジョージタウン実験の研究者らは、機械翻訳は数年以内に解決済みの問題になると確信していたと断言した。[ 3 ]ソ連でも、その後まもなく同様の実験が行われた。[ 4 ] その結果、この実験の成功により、米国では機械翻訳研究に多額の資金が投入される時代が到来した。しかし、実際の進歩は予想よりもはるかに遅く、1966年のALPAC報告書では、 10年間の研究ではジョージタウン実験の期待は達成されず、結果として資金が大幅に削減されたとされている。

機械翻訳の統計モデルへの関心が高まり、1980 年代には利用可能な計算能力の向上に伴い、機械翻訳はより一般的になり、コストも低下しました。

「制約のないテキストを完全自動で高品質に翻訳する」自律システムは存在しないものの、[ 5 ] [ 6 ] [ 7 ]、厳しい制約内で有用な出力を提供できるプログラムは現在数多く存在する。これらのプログラムのいくつかはオンラインで利用可能であり、例えばGoogle翻訳や、 AltaVistaのBabelFish (2012年5月にMicrosoft Bing翻訳に置き換えられた) を支えるSYSTRANシステムなどが挙げられる。

始まり

機械翻訳の起源は、 9世紀のアラビアの暗号学者アル・キンディーの研究にまで遡ります。彼は、暗号解読頻度分析確率統計など、体系的な言語翻訳技術を開発し、これらは現代の機械翻訳にも活用されています。[ 8 ]機械翻訳のアイデアはその後、17世紀に登場しました。1629年、ルネ・デカルトは、異なる言語で表現される同等の考えを一つの記号で表す普遍言語を提唱しました。[ 9 ]

1930年代半ば、ジョルジュ・アルトルーニは、パンチテープを用いた自動二か国語辞書に関する「翻訳機械」の最初の特許を申請したロシアピョートル・トロヤンスキーは、か国語辞書と、エスペラント語の文法体系に基づいた言語間の文法役割を扱う方法の両方を含む、より詳細な提案を提出した[ 10][ 11 ]。このシステムは3段階に分かれていた。第1段階では、原語のネイティブスピーカーによるエディターが単語を論理形式に整理し、統語的機能を実行する。第2段階では、機械がこれらの形式を目標言語に「翻訳」する。第3段階では、目標言語のネイティブスピーカーによるエディターが出力を正規化する。トロヤンスキーの提案は、コンピュータが広く知られ、利用されるようになった1950年代後半まで知られていなかった。

初期の頃

コンピュータベースの機械翻訳に関する最初の提案は、1949年にロックフェラー財団の研究者であるウォーレン・ウィーバーによって「翻訳覚書」として発表されました。[ 12 ]これらの提案は、情報理論、第二次世界大戦中の暗号解読の成功、そして自然言語の根底にある普遍的な原理に関する理論に基づいていました。

ウィーバーが提案書を提出してから数年後、アメリカの多くの大学で本格的な研究が始まりました。1954年1月7日、ニューヨークのIBM本社でジョージタウン大学とIBMの共同実験が行われました。これは機械翻訳システムの最初の公開デモンストレーションでした。このデモンストレーションは新聞で広く報道され、人々の関心を集めました。しかし、システム自体は「おもちゃ」に過ぎませんでした。わずか250語で、厳選された49のロシア語文(主に化学分野)を英語に翻訳しただけでした。それでも、このシステムは機械翻訳の実現が間近に迫っているという認識を促し、アメリカだけでなく世界中で研究資金の調達を刺激しました。[ 3 ]

初期のシステムでは、大規模な対訳辞書と、最終出力の語順を固定するための手書きのルールが使用されていましたが、当時の言語開発においては制約が厳しすぎると判断されました。例えば、生成言語学変形文法は、翻訳の品質向上のために活用されました。この時期に運用システムが導入されました。アメリカ空軍はIBMセントルイスのワシントン大学が開発したシステムを使用し、イタリアの原子力委員会と欧州原子力共同体(Euratom)はジョージタウン大学で開発されたシステムを使用していました。出力品質は低かったものの、特に速度の面で顧客の多くのニーズを満たしていました。

1950年代末、イェホシュア・バー=ヒレルは米国政府から機械翻訳の調査を依頼され、機械による完全自動の高品質翻訳の可能性を評価しました。バー=ヒレルは、意味の曖昧さ、つまり二重意味の問題について、次の文で例証しました。

リトル・ジョンはおもちゃ箱を探していました。そしてついに見つけました。箱は囲いの中にありました。

「ペン」という言葉には二つの意味があります。一つはインクで書くための道具、もう一つは何らかの容器という意味です。人間にとってはその意味は明白ですが、バー=ヒレルは「万能百科事典」がなければ機械はこの問題に対処できないと主張しました。当時、この種の意味の曖昧さを解決するには、各単語が一つの意味だけを持つ語彙を用いた統制言語で機械翻訳用の原文を作成することしかできませんでした。

1960年代、ALPAC報告書、そして70年代

1960年代のソ連とアメリカ合衆国における研究は、主にロシア語と英語の言語ペアに集中していました。翻訳対象は主に科学技術文書、例えば科学雑誌の記事でした。作成された大まかな翻訳は、記事の基本的な理解を得るには十分でした。機密扱いとみなされる主題を扱う記事は、完全な翻訳のために人間の翻訳者に送られましたが、そうでない場合は破棄されました。

1966年、機械翻訳研究に大きな打撃を与えたのは、ALPAC報告書の発表でした。この報告書は、米国政府の委託を受け、 1964年に米国政府が招集した7人の科学者からなるグループであるALPAC(自動言語処理諮問委員会)によって提出されました。米国政府は、多額の費用が投入されているにもかかわらず、研究の進展が見られない現状を懸念していました。報告書は、機械翻訳は人間の翻訳よりも費用がかかり、精度が低く、処理速度も遅いこと、そして多額の費用が投入されているにもかかわらず、近い将来、人間の翻訳者の品質に達する可能性は低いことを結論付けました。

しかし、報告書は、翻訳者を支援するツール(例えば自動辞書など)を開発することや、計算言語学の研究を継続的に支援することを推奨した。

この報告書の発表は、アメリカ合衆国、そしてソ連イギリスにおいても、機械翻訳研究に大きな影響を与えました。少なくともアメリカ合衆国では、研究は10年以上にわたってほぼ完全に中断されました。しかし、カナダ、フランス、ドイツでは研究が継続されました。アメリカ合衆国における主な例外は、SYSTRANピーター・トマ)とLogos(バーナード・スコット)の創業者たちで、彼らはそれぞれ1968年と1970年に会社を設立し、米国国防総省に勤務していました。 1970年にSYSTRANシステムがアメリカ空軍に導入され、その後1976年には欧州共同体委員会にも導入された。モントリオール大学で開発されたMETEOシステムは、天気予報を英語からフランス語に翻訳するために1977年にカナダに導入され、2001年9月30日に競合他社のシステムに置き換えられるまで、1日あたり約8万語、年間3000万語を翻訳していた。[ 13 ]

1960年代の研究は限られた言語ペアと入力に集中していましたが、1970年代には、幅広い技術文書や商用文書を翻訳できる低コストのシステムへの需要が高まりました。この需要は、グローバル化の進展と、カナダ、ヨーロッパ、そして日本における翻訳需要の増加によって促進されました。

1980年代から1990年代初頭

1980年代までに、機械翻訳システムの多様性と導入数が増加しました。SYSTRAN 、Logos、Ariane-G5、Metalなど、メインフレーム技術を活用したシステムが数多く導入されました。

マイクロコンピュータの入手しやすさが向上した結果、ローエンドの機械翻訳システムの市場が生まれました。ヨーロッパ、日本、アメリカ合衆国では多くの企業がこの市場を利用しました。中国、東ヨーロッパ、韓国、ソビエト連邦でもシステムが市場に投入されました。

1980年代、特に日本では機械翻訳が盛んに行われていました。第5世代コンピュータによって、日本はコンピュータのハードウェアとソフトウェアの両面で競合他社を凌駕しようとしました。多くの日本の大手電機メーカーが関わったプロジェクトの一つが、英語への翻訳と英語からの翻訳ソフトウェアの開発でした(富士通、東芝、NTT、ブラザー、カテナ、松下、三菱、シャープ、三洋電機、日立、NEC、パナソニック、高電社、ノバ、沖電気など)。

1980 年代の研究では、典型的には、形態論、統語論、意味論の分析を含むさまざまな中間言語表現を介した翻訳に依存していました。

1980年代末には、機械翻訳のための斬新な手法が数多く登場しました。IBMでは、統計的手法に基づいたシステムが開発されました長尾誠氏そのグループは、膨大な翻訳例に基づく手法を用いており、この手法は現在では用例ベース機械翻訳と呼ばれています。[ 14 ] [ 15 ]これらのアプローチの特徴は、統語的および意味的な規則を無視し、代わりに大規模なテキストコーパスの操作に依存していることです。

1990 年代には、音声認識音声合成の成功に後押しされ、ドイツのVerbmobilプロジェクトの開発とともに音声翻訳の研究が始まりました。

陸軍研究所が開発した機械翻訳技術である前線地域言語変換装置(FALCon)システムは、1997年にボスニアの兵士の文書翻訳に導入されました。[ 16 ]

低価格でより高性能なコンピュータの登場により、機械翻訳の利用が著しく増加しました。機械翻訳が大型メインフレームコンピュータからパーソナルコンピュータやワークステーションへと移行し始めたのは1990年代初頭のことでした。PC市場をリードしていた2社はGlobalinkとMicroTacでしたが、その後、両社の合併(1994年12月)が双方の利益になると判断されました。この頃、IntergraphとSystranもPC版の提供を開始しました。インターネット上では、AltaVistaBabel Fish(Systranの技術を使用)やGoogle Language Tools(当初はSystranの技術のみを使用)などのサイトも利用できるようになりました。

2000年代

機械翻訳の分野は、2000年代に大きな変化を遂げました。統計的機械翻訳用例ベースの機械翻訳に関する研究が大量に行われました。音声翻訳の分野では、ドメイン限定システムからドメイン無制限の翻訳システムへの移行に研究の焦点が当てられました。欧州(TC-STARなど)[ 17 ]や米国(STR-DUSTおよびDARPA Global自律言語活用プログラム)のさまざまな研究プロジェクトでは、国会演説や放送ニュースを自動翻訳するソリューションが開発されました。これらのシナリオでは、コンテンツのドメインは特定の分野に限定されなくなり、翻訳されるスピーチはさまざまなトピックをカバーしています。フランスとドイツのプロジェクトQuaeroは、多言語インターネットで機械翻訳を利用する可能性を調査しました。このプロジェクトは、ウェブページだけでなく、インターネット上のビデオやオーディオファイルも翻訳することを目指しました。

2010年代

過去10年間で、ニューラル機械翻訳(NMT)手法が統計機械翻訳に取って代わった。ニューラル機械翻訳という用語は、Bahdanauら[ 18 ]とSutskeverら[ 19 ]によって造られ、彼らは2014年にこのトピックに関する最初の研究も発表した。ニューラルネットワークは、統計モデルに必要なメモリのほんの一部しか必要とせず、文章全体を統合的にモデル化することができる。最初の大規模NMTは、2015年にBaiduによって開始され、続いて2016年にGoogleニューラル機械翻訳(GNMT)が開始された。その後、DeepL翻訳などの他の翻訳サービスや、 Microsoft翻訳などの古い翻訳サービスでのNMT技術の採用が続いた。

ニューラルネットワークは、シーケンスツーシーケンス(seq2seq)と呼ばれる単一のエンドツーエンドニューラルネットワークアーキテクチャを採用しています。これは2つのリカレントニューラルネットワーク(RNN)で構成されています。エンコーダーRNNとデコーダーRNNです。エンコーダーRNNはソース文のエンコードベクトルを使用し、デコーダーRNNは前のエンコードベクトルに基づいてターゲット文を生成します。アテンション層、変換、バックプロパゲーション技術のさらなる進歩により、NMTは柔軟性を高め、ほとんどの機械翻訳、要約、チャットボット技術に採用されています。[ 20 ]

参照

注記

  1. ^ナイ、メアリー・ジョー (2016). 「異言:科学における何世紀にもわたる共通言語の探求」 . 『蒸留』 . 2 (1): 40–43 . 2018年3月22日閲覧
  2. ^ゴーディン、マイケル・D. (2015). 『サイエンティフィック・バベル:グローバル・イングリッシュ以前と以後の科学のあり方』シカゴ大学出版局、イリノイ州シカゴ、  213–17。ISBN 978-0-226-00029-9
  3. ^ a bロバート・K・プラム(1954年1月8日)「ロシア語は高速電子翻訳機によって英語に変わる」ニューヨーク・タイムズ
  4. ^マドセン、マティアス・ウィンザー(2009年12月23日)「機械翻訳の限界」(論文)コペンハーゲン大学、11頁。
  5. ^メルビー、アラン・K. (1995). 『言語の可能性』アムステルダム: J. ベンジャミンズ. pp.  27– 41. ISBN 978-90-272-1614-4
  6. ^ Wooten, Adam (2006年2月14日). 「翻訳技術を概説するシンプルなモデル」 . T&I Business . 2012年7月16日時点のオリジナルよりアーカイブ
  7. ^ 「『言語の自動翻訳の現状』付録III」PDF)『コンピュータの進歩』1960年。pp.  158– 163。2018年9月28日時点のオリジナル(PDF)からアーカイブ。 2009年5月2日閲覧Y.Bar-Hillel (1964)に再録。 『言語と情報』マサチューセッツ州:Addison-Wesley、pp.  174– 179。
  8. ^デュポン、クイン(2018年1月)「機械翻訳の暗号学的起源:アル=キンディーからウィーバーまで」アモダン 8)。
  9. ^浜口、稔 (1993 年 4 月 30 日).英仏普及言語計画。 工作舎。ページ 70–71。ISBN 978-4-87502-214-5.普及している文字の構築という初期の試みに取り組むときは1629年11月にデカルトがメルセンヌに宛てた手紙から始まる、というが通り相場となっている。る種の共通の書字という構想は、ずっと以前から比較的なじみ深いものになっていたようであるジェームズ・ノールソン著(1975年)『 1600-1800のイングランドとフランスにおける普遍言語体系』 ISBNより翻訳 978-0-8020-5296-4
  10. ^別所、照彦; 棚橋、善照(1960年10月15日)。 「自動翻訳」。玉木、英彦。 喜安、善市 (編).自動翻訳デ・ユ・パノフ著 (1 版).東京:(株)みすず書房。 pp.  10–11 .翻訳のある程度の機械化は1933年にペ・ペ・トロヤンスキーが企んでたのが多分最初であろう。彼は「一つの言語から他の一つまたは同時に複数の言語への翻訳に際し、単語を選択別しかつ印刷する機械」を提案した。本でペ・ペ・トロヤンスキーは特許をとったが、当時それを実現することは巧くいかなかった。翻訳):ピーター・ペトロヴィッチ・トロヤンスキーが1933 年に試みたほぼ最初の機械翻訳の例と思われます。彼は、「ある言語から別の言語へ、または複数の言語へ同時に翻訳する際に、機械が単語を選択して印刷すること」を発表しましたが、当時は実装できませんでした。)
  11. ^別所、照彦; 沢辺 弘 (1964 年 2 月 25 日).翻訳(文庫クセジュ現代知識の焦点)(機械)(第 1 版)。東京: (株)白水社。 p. 39.争いで1933年に特許をとったロシア人ス・ミルノフ・トロヤンスキーの発明は、同時にいくつかの言語を翻訳し、遠方まで送ることを可能としているよう見え、デラヴニー、エミールから翻訳。 LA MACHINE A TRADUIRE (コレクション QUE SAIS-JE? No.834) (フランス語)。フランス大学出版局。
  12. ^ 「ウィーバー覚書」 1949年3月。2006年10月5日時点のオリジナルよりアーカイブ
  13. ^ 「調達プロセス」カナダ国際貿易裁判所2002年7月30日。 2011年7月6日時点のオリジナルよりアーカイブ。 2007年2月10日閲覧
  14. ^長尾誠 (1984年10月). 「類推原理による日英機械翻訳の枠組み」 .国際NATO人工知能シンポジウム論文集. 北ホラント. pp.  173– 180. ISBN 978-0-444-86545-8
  15. ^ 「計算言語学協会 – 2003 ACL生涯功労賞」。計算言語学協会。2010年6月12日時点のオリジナルよりアーカイブ。 2010年3月10日閲覧
  16. ^ワイスガーバー, ジョン; ヤン, ジン; フィッシャー, ピート (2000). 「パシフィック・リム・ポータブル・トランスレータ」 .情報化の未来における機械翻訳の構想. コンピュータサイエンス講義ノート. 第1934巻. pp.  196– 201. doi : 10.1007/3-540-39965-8_21 . ISBN 978-3-540-41117-8. S2CID  36571004 .
  17. ^ "TC-Star" . 2010年10月25日閲覧
  18. ^ Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). 「統計的機械翻訳のためのRNNエンコーダー・デコーダーを用いたフレーズ表現の学習」 . 2014年自然言語処理における経験的手法に関する会議 (EMNLP) の議事録. 米国ペンシルベニア州ストウズバーグ:計算言語学協会. pp.  1724– 1734. arXiv : 1406.1078 . doi : 10.3115/v1/d14-1179 . S2CID 5590763 . 
  19. ^立岡 勇樹、渡辺 真司、ル・ルー ジョナサン、ハーシー ジョン・R (2014年12月). 「低ランク深層ニューラルネットワークのためのシーケンス識別学習」 . 2014 IEEE Global Conference on Signal and Information Processing (GlobalSIP) . IEEE. pp.  572– 576. doi : 10.1109/globalsip.2014.7032182 . ISBN 978-1-4799-7088-9. S2CID  767028 .
  20. ^ 「ニューラル機械翻訳とは何か?そしてどのように機能するのか?」 TranslateFX . 2022年12月9日閲覧

参考文献

さらに読む