ライトプリントは、法言語学においてインターネット上で著者を特定する手法であり、デジタル指紋に例えられます。未知の文書の特徴的な文体的特徴と、疑わしい著者の既知のサンプル(著者不変量)を比較することで、著者の身元が特定されます。容疑者がいなくても、ライトプリントは著者の国籍や学歴といった潜在的な背景情報を提供します。[ 1 ]
writeprint における著者識別には、大きく分けて 5 つの側面があります。
- 語彙の特徴-語彙集の分析、著者の語彙の選択、文字と単語を使用して個人の好みを識別すること。
- 大文字と小文字の使用、特定の文字の頻度、単語の平均長、発話自体の平均長[ 2 ]
- 統語的特徴- 句読点やハイフンの使用、受動態の使用、文の複雑さなど、著者の文体と文構造の分析。
- 構造的特徴- 段落の長さ、間隔、インデントなど、著者の作品の構成と構造的配置の分析。
- たとえば、段落内での文章の配置、電子メールでの別れの言葉、挨拶、署名の使用などが含まれます。
- コンテンツ固有の特徴- スラングや頭字語の使用を含む、文章の主題にとって文脈的に重要な言語の分析。より具体的には、これらの特徴は、使用されているキーワードを特定することで、主題の興味を決定づけます。
- 著者特有の特徴- 誤字、単語の誤用、動詞の不正確な形など、著者特有の誤りやその他の非文法要素の分析。これは制御が難しいため、他の特徴と組み合わせることで著者識別において高い精度を実現しています。[ 3 ]
上記の5つの特徴は著者識別の従来の方法ですが、オンラインテキストに特有の特徴も存在します。フォントの選択、絵文字の使用、他のウェブサイトへのリンクといった特徴は、従来のテキスト分析では見られない著者識別の手段となります。[ 4 ]
参照
参考文献
- ^ Li, Jiexun; Zheng, Rong; Chen, Hsinchun (2006年4月). 「指紋から筆跡へ」. Communications of the ACM . 49 (4): 76– 82. doi : 10.1145/1121949.1121951 . S2CID 14341797 .
- ^ Iqbal, F; Binsalleeh, H; Fung, B; Debbabi, M (2010年10月). 「法医学調査のための匿名電子メールからのライトプリントのマイニング」(PDF) . Digital Investigation . 7 ( 1–2 ): 56– 64. doi : 10.1016/j.diin.2010.03.003 .
- ^ Abbasi, Ahmed; Chen, Hsinchun; Nunamaker Jr., Jay F. (2008年夏). 「電子市場におけるスタイルメトリック識別:スケーラビリティと堅牢性」. Journal of Management Information Systems . 25 (1): 49– 78. doi : 10.2753/MIS0742-1222250103 . JSTOR 40398926. S2CID 3941985 .
- ^ Rehmeyer, Juli (2007年1月13日). 「デジタル指紋」. Science News . 171 (2): 26– 28. doi : 10.1002/scin.2007.5591710210 . JSTOR 3982506 .