機械翻訳ソフトウェアの使いやすさ

以下のセクションでは、機械翻訳ソフトウェアの出力の使いやすさを評価するための客観的な基準を示します。

定常性または標準形

繰り返し翻訳を行うと、両言語で単一の表現に収束するでしょうか?つまり、翻訳方法は定常性を示すか、標準的な形式を生み出すでしょうか?翻訳は元の意味を失うことなく定常化されるでしょうか?この指標は、 BLEU (BiLingual Evaluation Understudy)スコアとの相関性が低いと批判されています[1]

口語、隠語、俗語に適応可能

このシステムは口語隠語俗語にも適応できるのでしょうか?フランス語には、大衆文化における話し言葉や書き言葉で使われる単語を作るための多くの規則があります。例えば、(a) femmeをmeuf逆綴りする(これはverlanと呼ばれます)。(b) 名詞または動詞に接尾辞-ardを付けて固有名詞を作る。例えば、名詞faluche は「学生帽」を意味します。falucheから派生したfaluchardという単語は、文脈によって「学生の集団」「学生の集まり」「学生に典型的な行動」といった意味になります。2006年12月28日時点のGoogle翻訳では、例えば次に示すように、規則(b)から派生した単語は生成されません。

Il ya une chorale falucharde mercredi、venez nombreux、les faluchards chantent des paillardes! ==>水曜日には合唱団ファルシャルドがあります、たくさん来てください、ファルシャルドは自由に生きる女性たちを歌います!

フランス語の隠語には3つの使用レベルがあります。[2]

  1. より親しみやすく、友人、家族、同僚の間では受け入れられるが、職場では受け入れられない
  2. 友人や同僚の間では許容されるが、職場や家族の間では許容されない、下品な言葉や汚い言葉
  3. 下層階級では受け入れられるが、中流階級や上流階級では受け入れられない、ベルランまたはゲットースラング

米国国立標準技術研究所(NIST)は、BLEU -4基準[2]に基づく機械翻訳システム年次評価[1](Wayback Machineに2009年3月22日アーカイブ)を実施しています。GimenezとAmigoは、BLEUに加え、NIST、GTM、ROUGE、METEORといった追加指標を組み込んだIQmtと呼ばれる複合評価手法を実装しました[3]。

整形式の出力

出力は対象言語において文法的に正しく、あるいは整形式的でしょうか?この点に関しては、インターリングアの使用が有用です。なぜなら、固定されたインターリングアがあれば、インターリングアから対象言語への文法的なマッピングを記述できるからです。2006年12月27日時点のGoogle翻訳[4]による以下のアラビア語入力と英語翻訳結果を考えてみましょう。このGoogle翻訳の出力は、適切な英語文法を用いて解析されていません

عن حوادث التدافع عند شعيرة رمي الجمرات -التي كثيرا ما يسقط فيها العديد من الضحايا - أشار الأمير نايف إلى إدخال "تحسينات كثيرة في جسر الجمرات ستمنع بإذن الله حدوث أي تزاحم"。 ==> そして、犠牲者の多くが落ちるカーバンクルを投げる儀式を押した時の事件 - ナエフ王子は「カーバンクル橋の多くの改良が、神が競争の発生を止めるだろう」と指摘した。

セマンティクスの保存

繰り返し翻訳しても、元の文の意味は保持されるのでしょうか?例えば、2006年12月27日時点でGoogle翻訳を使って、以下の英語入力をフランス語に複数回翻訳した例を考えてみましょう。

一日遅れるより一日早い方が良いです。 ==>

Améliorer un jour プラス tôt qu'un jour tard。 ==>

一日遅れるより一日早く改善する。 ==>

améliorer un jour plus tot qu'un jour tardを注ぎます。 ==>

一日遅れるより一日早く改善する。

上記および[1]で述べたように、このような往復翻訳は非常に信頼性の低い評価方法です。

信頼性とセキュリティ

2008 年 1 月 24 日現在 (2008 年 1 月 25 日に修正)、Google 翻訳の興味深い特徴は、英語からスペイン語に翻訳すると次のような結果になる点です。これは、最近の出来事を考慮すると、さらに痛ましい英語 - スペイン語辞書に 埋め込まれたジョークを示しています。

ヒース・レジャーが死んだ ==>

トム・クルーズは死んでいる

これは、生命に関わるシステムに組み込まれ、安全性が極めて重要な意思決定プロセスに入力情報を提供する機械翻訳システムを利用する場合の信頼性の問題を提起します。同時に、特定の用途において、機械翻訳システムのソフトウェアがハッカーから安全であるかどうかという問題も提起します

Google翻訳のこの機能が、ジョークやハックによるものなのか、それとも統計的機械翻訳のような手法を用いた結果なのかは不明です。CNET Networksの記者は2008年1月24日にGoogleに説明を求めましたが、Googleは「Google翻訳の内部的な問題」とだけ回答しました。[3] この誤訳は、インターネット上で多くの笑いと憶測の的となりました。[4] [5]

これがジョークやハックではなく、統計的機械翻訳などの方法の使用による意図しない結果である場合、このイベントは、統計的機械翻訳方法の重大な信頼性の欠如の潜在的な原因を実証しています。

人間による翻訳、特に通訳者による翻訳では、通訳を受ける 2 人の当事者のうちの 1 人が両方の言語を知っている場合、翻訳を実行する際の翻訳者側の選択性についてよく言及されます。

これは、特定の翻訳が検証可能とみなせるかどうかという問題につながります。この場合、収束する往復翻訳は一種の検証となります。

参照

注記

  1. ^ ab Somers, Harold (2005). 「往復翻訳:そのメリットとは?」オーストラレーシア言語技術ワークショップ ALTW 2005 議事録. シドニー: 127–133 .
  2. ^ 「アルゴットの苦悩」、チトリンズ&カマンベール、2005年10月28日
  3. ^ 「Google Translate のバグでヒース・レジャーとトム・クルーズが混在」、キャロライン・マッカーシー、CNET Networks、2008年1月24日
  4. ^ 「"トム・クルーズ"はスペイン語で"ヒース・レジャー"のことです」gawker.com、2008年1月24日。2008年1月28日アーカイブ、Wayback Machineにて。
  5. ^ 「トム・クルーズは死んでいる」、レイ・レオン・ブログ・プロジェクト、2008年1月24日。2008年10月29日アーカイブ、Wayback Machineにて。

参考文献

  • Gimenez, Jesus および Enrique Amigo. (2005) IQmt: 機械翻訳評価のためのフレームワーク。
  • NIST。機械翻訳システムの年間評価と評価計画。
  • Papineni, Kishore, Salim Roukos, Todd Ward, Wei-Jing Zhu. (2002) BLEU: 機械翻訳の自動評価手法. 第40回ACL年次会議論文集, 2002年7月, pp. 311–318.
「https://en.wikipedia.org/w/index.php?title=Machine_translation_software_usability&oldid=1305865299」より取得