ノイズのあるテキストとは、テキストのコード化された表現の表面的な形式と、意図された正しいテキスト、つまり元のテキストとの間に差異があるテキストのことである。 [ 1 ]ノイズは、自然言語に常在する誤植や口語表現に起因する場合があり、通常、データの品質を低下させ、自然言語処理を含むコンピュータによる自動処理が困難になる。また、ノイズは、元の電子テキスト以外のメディアからの抽出プロセス(例えば、転写やOCR )によっても導入される可能性がある。[ 2 ]
チャット、電子メール、SMSテキストといったコンピュータを介した談話における言語使用は、標準的な言語形式とは大きく異なります。より速い入力を可能にする短いメッセージ長への欲求と、意味の明確さへの要求が、こうした談話で使用されるテキストの構造を形作っています。
様々なビジネスアナリストは、非構造化データが企業データ全体の約80%を占めていると推定しています。このデータの大部分は、チャットの記録、電子メール、その他の社内外の非公式または準公式なコミュニケーションから構成されています。通常、このようなテキストは人間が利用するために作成されますが、データ量を考えると、これらのリソースを手作業で処理・評価することはもはや現実的ではありません。そのため、堅牢なテキストマイニング手法の必要性が高まっています。[ 3 ]
スペルチェッカーと文法チェッカーを使用すると、入力したテキストのノイズを減らすことができます。多くのワードプロセッサの編集ツールには、この機能が組み込まれています。
オンラインでは、Google検索には、ユーザーがクエリを間違えたときにガイドする検索用語提案エンジンが含まれています。[ 4 ]
{{cite journal}}: CS1 maint: 複数の名前: 著者リスト (リンク){{cite conference}}: CS1 maint: 複数の名前: 著者リスト (リンク)