ノイズの多いテキスト

ノイズのあるテキストとは、テキストのコード化された表現の表面的な形式と、意図された正しいテキスト、つまり元のテキストとの間に差異があるテキストのことである。 [ 1 ]ノイズは、自然言語に常在する誤植口語表現に起因する場合があり、通常、データの品質を低下させ、自然言語処理を含むコンピュータによる自動処理が困難になる。また、ノイズは、元の電子テキスト以外のメディアからの抽出プロセス(例えば、転写OCR )によっても導入される可能性がある。[ 2 ]

チャット電子メールSMSテキストといったコンピュータを介した談話における言語使用は、標準的な言語形式とは大きく異なります。より速い入力を可能にする短いメッセージ長への欲求と、意味の明確さへの要求が、こうした談話で使用されるテキストの構造を形作っています。

様々なビジネスアナリストは、非構造化データが企業データ全体の約80%を占めていると推定しています。このデータの大部分は、チャットの記録、電子メール、その他の社内外の非公式または準公式なコミュニケーションから構成されています。通常、このようなテキストは人間が利用するために作成されますが、データ量を考えると、これらのリソースを手作業で処理・評価することはもはや現実的ではありません。そのため、堅牢なテキストマイニング手法の必要性が高まっています。[ 3 ]

ノイズ低減技術

スペルチェッカー文法チェッカーを使用すると、入力したテキストのノイズを減らすことができます。多くのワードプロセッサの編集ツールには、この機能が組み込まれています。

オンラインでは、Google検索には、ユーザーがクエリを間違えたときにガイドする検索用語提案エンジンが含まれています。[ 4 ]

参照

参考文献

  1. ^ Knoblock, Craig; Lopresti, Daniel; Roy, ​​Shourya; Subramaniam, L. Venkata (2007). 「ノイズの多いテキスト分析に関する特集号」. International Journal on Document Analysis and Recognition . 10 ( 3–4 ): 127– 128. doi : 10.1007/s10032-007-0058-9 .{{cite journal}}: CS1 maint: 複数の名前: 著者リスト (リンク)
  2. ^ Vinciarelli, Alessandro (2005). 「ノイズのあるテキストの分類」(PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 27 (12): 1882– 1895. doi : 10.1109/TPAMI.2005.248 . PMID 16355657 . 
  3. ^ Subramaniam, L. Venkata; Roy, ​​Shourya; Faruquie, Tanveer A.; Negi, Sumit (2009年7月23日).テキストノイズの種類とノイズの多いテキストの処理技術に関する調査. ノイズの多い非構造化テキストデータの分析に関する第3回ワークショップ (AND). pp.  115– 122. doi : 10.1145/1568296.1568315 .{{cite conference}}: CS1 maint: 複数の名前: 著者リスト (リンク)
  4. ^ 「Google検索のスペルのABC」 . Google . 2021年3月29日. 2025年9月25日閲覧