敵対的文体測定法とは、文体測定法によって著者の身元や特徴が特定される可能性を低減するために、文体を変更する手法です。この手法は、著者の難読化または著者の匿名化とも呼ばれます。文体測定法は、匿名の著者を暴いたり、仮名を著者の他の身元と結び付けたりする能力において、プライバシーに関する重大な課題を提起します。これは、例えば、内部告発者、活動家、詐欺師、そして詐欺師にとって困難をもたらします。機械学習技術とテキストコーパスの発展に伴い、プライバシーリスクは増大すると予想されます。
敵対的文体測定法の核となる考え方は、意味を変えずに文体の特徴を曖昧にするように原文を忠実に言い換えるというものです。このような忠実な言い換えは、文体測定法の分類器における敵対的事例となります。これには、ある程度重複するものの、いくつかの広範なアプローチがあります。模倣(著者自身の文体を他者の文体に置き換える) 、翻訳(原文の特徴的な文体を排除することを期待して機械翻訳を適用する)、そして難読化(著者自身の文体に似ないように意図的に文体を変更する)です。
手動でスタイルを隠蔽することは可能ですが、手間がかかります。状況によっては、それが望ましい、あるいは必要となる場合もあります。半自動または全自動の自動ツールは、著者の作業を支援する可能性があります。この作業をどのように最適に実行し、そのようなツールをどのように設計するかは、未解決の研究課題です。特定の文体分析、特に敵対性の可能性を考慮していない分析を回避できることが示されているアプローチもありますが、未知の分析に対する安全性を確立することは課題です。言い換えの忠実性を確保することは、自動ツールにとって重要な課題です。
敵対的様式測定の実践自体が検知可能かどうかは不明です。いくつかの研究では、特定の手法が出力テキストにシグナルを生み出すことが示されていますが、どのような手法が使用されたか不明な様式測定者にとっては、それを確実に検知できない可能性があります。
敵対的文体測定法の初期の研究であるRao & Rohatgi (2000) [ 1 ]は、機械翻訳の可能性を指摘したが、当時利用可能な翻訳の質が大きな課題であったと指摘した。[ 2 ] Kacmarcik & Gamon (2006)もまた初期の研究である。Brennan , Afroz & Greenstadt (2012) は、実際のテキストを用いて敵対的文体測定法を初めて評価した。[ 1 ]
ブレナン&グリーンシュタット(2009)は、特に文体測定法を評価するために、敵対的に執筆されたテキストの最初のコーパスを導入しました。[ 3 ]他のコーパスには、国際模倣ヘミングウェイコンテスト、偽フォークナーコンテスト、偽ブログ「ダマスカスのゲイガール」などがあります。[ 4 ]
Rao & Rohatgi (2000)は、短く出典が明記されていない文書 (匿名の投稿) は文体測定法による識別のリスクはないが、何千語ものコーパスを作成する際に敵対的文体測定法を実践していない匿名の著者は脆弱である可能性があると示唆している。 [ 5 ] Narayanan et al. (2012)は、10万人のブログ著者の大規模な匿名化解除を試み、結果はまちまちだった。識別は偶然よりもはるかに優れていたが、ブログと著者を正確に一致させたのは5分の1だけだった。[ 6 ]コーパス内で著者が書いた投稿の数が増えるにつれて、識別は向上した。[ 7 ]著者が特定されない場合でも、その特徴のいくつかは文体測定法によって推測できる場合があり[ 8 ] 、あるいは文体測定法によって匿名の著者候補セットが絞り込まれ、他の情報で識別が完了することもある。[ 7 ]著者の特徴(性別や年齢など)を検出することは、多数の候補の中から著者を特定するよりも簡単な場合が多い。[ 9 ]
現代の機械学習技術は、識別のための強力なツールを提供しています。[ 10 ]コーパスと計算によるスタイルメトリクス技術のさらなる発展は、さらなるプライバシーの問題を引き起こす可能性があります。[ 11 ] GröndahlとAsokan(2020a)は、スタイルメトリクスの根底にある仮説、つまり著者は不変で内容に依存しない「スタイル指紋」を持っているという仮説の一般的な妥当性は不確かですが、「匿名化解除攻撃は真のプライバシーの懸念事項である」と述べています。[ 12 ]
敵対的文体測定法と文体欺瞞の実践に関心を持つ者には、報復を逃れようとする内部告発者、 [ 13 ]ジャーナリストや活動家、[ 10 ]詐欺やいたずらの加害者、[ 14 ]偽のレビューの著者、[ 15 ]文学の贋作者、[ 16 ]捜査官から身元を隠す犯罪者、[ 17 ]および、一般に匿名性や仮名性を望む人が含まれる。 [ 13 ]著者、または著者に代わって行動する代理人は、著者の特性(例:人種や性別)に関する文体の手がかりを削除しようとすることもある。そうすることで、それらの特性に関する知識が差別に使用されないようにする(例:アルゴリズムによるバイアスを通じて)。[ 18 ] [ 19 ]敵対的文体測定法のもう1つの可能な用途は、自動生成されたテキストを人間が作成したものとして偽装することである。 [ 20 ]
模倣では、作者は自分のスタイルを他の作者のスタイルに合わせることで、文体測定を誤らせようとします。[ 21 ]不完全な模倣、つまり、模倣された作者の独自の特徴の一部が並んで現れる場合、それは敵対的文体測定の使用を検出できるシグナルとなり得ます。[ 22 ]模倣はスタイル転送システムによって自動的に実行できますが、通常、システムが学習するための対象スタイルの大規模なコーパスが必要になります。[ 23 ]
もう一つのアプローチは翻訳である。これは、原文を機械翻訳して特徴的な文体を排除するものであり、多くの場合、複数の翻訳者が順番に翻訳を行い、往復翻訳を作成する。このような連鎖翻訳は、文体が大きく変化し、理解不能に陥ることもあるが、翻訳ツールの改良によりこのリスクは軽減される。構造が単純な文体は、元の意味を失うことなく機械翻訳しやすい。[ 21 ]機械翻訳は、文体の直接的な模倣や、自動的な文体変換による難読化に陥り、これは入力と出力が同じ言語による「翻訳」と見なすことができる。[ 24 ] [ 25 ]低品質の翻訳ツールでは、文体の特徴が再び現れる危険性を避けながら、著者が重大な翻訳エラーを手動で修正しなければならない場合がある。[ 2 ] Wang、Juola、Riddell(2022)は、 Google翻訳によってもたらされる重大な誤りはまれであるが、中間翻訳が複数回行われる場合にはより一般的であることを発見した。しかし、時折、原文の単純または短い文やスペルミスが出力にそのまま表示され、識別信号となる可能性があることがわかった。[ 26 ]連鎖翻訳は文書に適用された特徴的な痕跡を残すことがあり、それによって使用された中間言語や実行された翻訳ステップの数を再構築できる可能性がある。[ 23 ]
難読化とは、ある基準で他のテキストとの類似性を減らすために、テキストのスタイルを意図的に変更することである。これは執筆時に意識的に修正することによって実行される場合もあれば、テキストが十分に難読化されたかどうかを判断するための入力として対象となる基準からのフィードバックを伴う改訂プロセスの一部として実行される場合もある。翻訳とは対照的に、複雑なテキストでは意味を変えずに効果的な難読化を行う機会が多くあり、[ 27 ]同様に、バリエーションがより許容されるジャンルでは、より多くの難読化が可能になる。[ 28 ]しかし、長いテキストは徹底的に難読化するのが難しくなる。[ 29 ]作者が元のスタイルとは異なる新しいターゲットスタイルを開発した場合、難読化が模倣と溶け合う可能性がある。[ 30 ]作者の特徴を隠すという点では、難読化は他の作者のスタイルの結合(模倣された特徴のシグナルの追加)または交差(シグナルの削除と正規化)を達成することを目的としてもよい。[ 31 ]著者自身の特異性を避け、「正規化された」テキストを作成することは、難読化において重要なステップです。著者は特定の単語のスペルミス、特定の異形の使用、または特徴的な方法で文書をフォーマットする独特の傾向がある場合があります。[ 2 ] [ 32 ]文体測定学的シグナルは、敵対的にマスクされる容易さが異なります。著者は意識的な選択によって語彙を簡単に変更できますが、文法パターンやテキスト内の文字頻度を変更することは難しい場合があります。ただし、Juola & Vescovi (2011)は、模倣は通常、難読化よりも多くの特徴をマスクすることに成功すると報告しています。[ 33 ]自動難読化には、著者が作成した大量のトレーニングデータが必要になる場合があります。[ 29 ]
敵対的文体測定法の自動化された実装に関しては、2つの実装が考えられます。1つはルールベースの言い換えシステム、もう1つはテキストが(意図されて)文体中立な中間フォーマットを通過するエンコーダー・デコーダーアーキテクチャです。[ 34 ]自動化手法のもう1つの区分は、識別システムからのフィードバックがあるかどうかです。[ 35 ]このようなフィードバックがある場合、著者マスキングの言い換えを見つけることは、ヒューリスティックな検索問題として特徴付けられ、結果が文体的に十分に遠い(難読化の場合)または近い(模倣の場合)までテキストのバリエーションを探索し、その結果がその識別システムの敵対的例を構成します。[ 36 ] [ 37 ]
実際に文体測定学的特徴を最もよくマスクする方法、およびどのタスクを手動で実行するか、ツールの支援を使用して何をするか、および完全に自動的に何を行うかは、特に潜在的な変動性が限られている短い文書の場合、未解決の研究分野です。[ 38 ] [ 11 ]手動の敵対的文体測定法は、作成者がタスクを実行するために利用可能なコンピュータを信頼できない場合(たとえば内部告発者の場合など)に好まれるか、または必須になることがあります。[ 23 ]ソフトウェアツールにはメンテナンスが必要です。Wang 、Juola、Riddell(2022)は、一般使用に適したメンテナンスされた難読化ソフトウェアは存在しないと報告しています。[ 39 ] Zhai et al。(2022)は、DS-PAN(Castro-Castro、Ortega Bueno、Muñoz 2017)とMutant-X(Mahmood et al。2019)を2022年の自動難読化の最先端技術として挙げています。[ 40 ]手作業による文体の調整は多大な労力を要し、スケーラビリティが低い。ツールの支援によって負担をある程度軽減できる。[ 41 ]決定論的な自動化手法は、敵対的に訓練された分類器に対しては効果を失う可能性がある。敵対的に訓練された分類器では、スタイル転送プログラムの出力が分類器のトレーニングセットに使用されている。[ 42 ]
Potthast、Hagen、Stein (2016)は、敵対的文体測定法の評価に用いる3つの基準を提示している。安全性(文体特性が確実に除去されていること)、健全性(テキストの意味内容が許容できないほど変更されていないこと)、そして分別性(出力が「整形式で目立たない」こと)である。いずれか1つでも過度に妥協することは通常許容できない結果となり、実際にはこれら3つは互いにトレードオフの関係にある。[ 43 ] Potthast、Hagen、Stein (2016) は、分別性、特に出力が許容できる文法的妥当性と整形式性を備えているかどうかを自動的に評価することは困難であると結論付けている。[ 44 ]健全性の自動評価はやや有望ではあるが、手動によるレビューが最良の方法である。[ 45 ]
安全性は敵対的様式測定法の重要な特性であるが、認められた様式測定的識別の可能性が非様式測定的分析によって可能である場合、安全性は有益にトレードオフされる可能性がある。例えば、イギリスでの自身の生い立ちについて論じている著者は、様式測定法によってその文章が典型的なイギリス英語であることが明らかにされても気にしないだろう。[ 46 ] [ 47 ]
異なるアプローチの安全性を評価することは、識別抵抗が基本的に検討中の識別方法に依存するため複雑である。[ 48 ]未知の分析に対して耐性があるという特性は、移転可能性と呼ばれる。[ 49 ] Gröndahl & Asokan (2020b)は、テキストがどのように分析され、どのようなトレーニングデータが使用されるかについての著者の知識に応じて、作成者に対して4 つの異なる脅威モデルを特定している。最も弱いアナリストと、分析方法とトレーニングデータの両方を知っている最も強い著者によるクエリアクセス。著者が分析方法を知っているがトレーニングデータを知らないアーキテクチャアクセス。著者がトレーニングデータを知っているが分析方法を知らないデータアクセス。最も弱い著者と最も強いアナリストによる代理アクセス。著者は分析方法もトレーニングデータも知らない。[ 34 ]さらに、著者が手法を選択する際には、脅威モデルに頼り、それが有効であること、残りの文体シグナルを検出できる未知の分析は実行できないか実行されないか、あるいはマスキングが正常に転送されることを信頼する必要があります。[ 50 ]しかし、著者がどのように文体をマスキングしようとしたかを知っている文体測定学者は、その手法の弱点を悪用して、それを安全でないものにする可能性があります。[ 51 ]自動化手法の研究の多くは、著者がクエリにアクセスできることを前提としていますが、これは他の設定には一般化できない可能性があります。[ 52 ]異なる分析のアンサンブルを敵のモデルとして内部的に使用するマスキング手法は、目に見えない分析に対してよりうまく転送できる可能性があります。[ 35 ]
健全性の徹底的な喪失はコミュニケーションの目的を損ないますが、核となるメッセージが保持されていれば、ある程度の意味の変化は許容できるかもしれません。テキストの含意のみを要求するか、自動要約を許可することは、おそらく許容できる方法で意味の一部を失う他の選択肢です。[ 53 ]入力テキストを書き換えてスタイロメトリーを無効にすることは、作文中に意識的に文体上の特徴を削除することとは対照的に、テキストの意味を保持する上で課題をもたらします。[ 54 ] GröndahlとAsokan(2020a)は、不健全性の問題を、完全に自動化されたアプローチの研究における「最も重要な課題」と評価しています。[ 11 ]
感性に関しては、テキストが理解不能なほど文法的に間違っているか、ジャンルに当てはまらないほど不完全な形式である場合、この方法は失敗しているが、その点に達しない妥協は有用かもしれない。[ 44 ]目立たなさが部分的にでも失われると、疑惑を確認したりさらなる証拠を集めたりするために、より高価で拡張性の低い分析(法医学言語学者への相談など)が実行される可能性があります。[ 55 ]目立たなさが完全に失われた場合の影響は、敵対的様式測定法を実行する動機によって異なります。単に匿名を保とうとしている人(内部告発者など)にとっては、検出は問題にならないかもしれません。しかし、文学の贋作者にとっては、検出は悲惨なものとなるでしょう。[ 16 ]敵対的様式測定法では、その実施の証拠が残る可能性があり、これは目立たなさの失敗です。[ 56 ] [ 57 ]ブレナン・グリーンシュタット・コーパスでは、テキストはそれぞれ独自の「スタイル」を共有していることが判明している。[ 58 ]しかし、Gröndahl & Asokan (2020a)は、既存の証拠では敵対的文体測定が常に検出可能であることを証明するには不十分であり、限られた方法しか研究されていないと評価している。[ 59 ]出力テキストの滑らかさを向上させることで、自動ツールの検出可能性を低下させる可能性がある。[ 60 ]敵対的著者の全体的な検出可能性は十分に研究されておらず、著者が使用できる方法が文体測定者に知られていない場合、検出は不可能である可能性がある。[ 11 ]
敵対的な状況における著者識別と検証の問題は、無知な著者や協力的な著者を認識することとは大きく異なります。[ 61 ]故意に著者を隠そうとする試みは、JuolaとVescovi(2011)によって「現在のスタイルメトリクス技術の現状における問題」と説明されており、[ 62 ] Brennan 、Afroz、Greenstadt(2012)は、スタイルメトリクスが非敵対的な著者を識別する際に高い性能を示すにもかかわらず、敵対的な手法を手動で適用すると信頼性が低下すると述べています。[ 63 ]
Kacmarcik & Gamon (2006)は、少数の特徴で動作する低次元の文体測定モデルは敵対的文体測定に対する耐性が低いことを指摘している。[ 64 ]研究により、著者が自分の文体をどの程度うまく調整できるかはさまざまであり、訓練を受けなくてもタスクをうまく実行できる著者もいることが明らかになっている。[ 39 ] Wang、Juola & Riddell (2022)は、 Brennan、Afroz & Greenstadt (2012)の複製および再作成であり、模倣、翻訳、難読化の3つすべてが著者帰属の有効性を有意に低下させ、手作業による難読化は手作業による模倣や翻訳よりもいくらか効果的であり、両者のパフォーマンスは似ていたことを発見した。元の研究では模倣が優れていることが判明した。[ 65 ] Potthast、Hagen、Stein(2016)は、単純な自動敵対的様式測定法でさえ、最先端の著者識別システムに大きな困難を引き起こし、健全性と感受性に大きな犠牲を払ったと報告している。[ 66 ]敵対的認識型識別システムは、識別者がどの匿名化方法が使用されたかを分析する際に間違いを犯したとしても、どの潜在的な難読化方法が使用されたかを知っていれば、敵対的様式測定法に対してはるかに優れたパフォーマンスを発揮することができる。[ 67 ]