ワードフィルター(単に「フィルター」または「検閲」と呼ばれることもあります) は、インターネット フォーラムやチャット ルームでよく使用されるスクリプトで、ユーザーの投稿やコメントが送信されると自動的にスキャンし、特定の単語やフレーズ を自動的に変更または検閲します。
最も基本的なワードフィルターは、特定の文字列のみを検索し、文脈に関係なく削除または上書きします。より高度なワードフィルターでは、文脈に応じて例外が設けられます(例えば、「butt」はフィルタリングするが「butter」はフィルタリングしないなど)。また、より高度なワードフィルターでは正規表現が使用される場合もあります。
機能
ワードフィルターはさまざまな機能を果たすことができます。
下品な言葉の削除
罵り言葉フィルター(冒涜語フィルター、わいせつ語フィルター、言語フィルターとも呼ばれる)は、オンラインフォーラムの管理者またはコミュニティが不快と判断した言葉を削除するためにテキストを修正するソフトウェアサブシステムです。罵り言葉フィルターは、カスタムプログラムされたチャットルームやオンラインビデオゲーム、主にMMORPGでよく使用されます。これはコンテンツフィルタリングとは混同しないでください。コンテンツフィルタリングは通常、サードパーティの開発者によってインターネットブラウジングプログラムに組み込まれ、特定のウェブサイトまたはウェブサイトの種類をフィルタリングまたはブロックします。罵り言葉フィルターは通常、インターネットサービスの開発者によって作成または実装されます。
最も一般的には、ワードフィルターは、フォーラムやチャットルームの運営者が不適切と判断した言葉を検閲するために使用されます。罵り言葉は通常、部分的に、完全に、あるいは意味不明な言葉に置き換えられます。[ 1 ]これにより、管理者やモデレーターは、掲示板を常に巡回してそのような言葉を監視するという作業から解放されます。また、ユーザーのコンピュータやネットワークにコンテンツ制御ソフトウェアがインストールされている場合、そのようなソフトウェアは下品な言葉を含むウェブページへのアクセスをブロックすることが多いため、ワードフィルターはそのようなソフトウェアによる下品な言葉の投稿を回避できる可能性があります。
フィルタリングされたフレーズは、保存時に完全に置き換えられる場合があります(例:phpBB 1.x)。また、元のフレーズは保存されますが、検閲されたテキストとして表示される場合もあります。一部のソフトウェアでは、ユーザーは投稿を引用することで、ワードフィルタの適用後のテキストを表示できます。
罵倒フィルターは通常、プログラムの作成に使用されたプログラミング言語に組み込まれている文字列置換機能を利用し、不適切な単語やフレーズのリストを様々な代替語句に置き換えます。代替語句には以下が含まれます。
- Grawlix のナンセンス文字(!@#$%^&* など)
- 特定の文字をシフト数字文字または類似の文字に置き換えます。
- 指定された長さ、またはフィルタリング対象となる元の単語と同じ長さのアスタリスクまたは番号記号(* または #)。また、投稿者は特定の文字をアスタリスクに置き換えることがよくあります。
- 「heck」、「frick」、「darn」などの人気の誓いの言葉、または「flum」や「flek」などの創作された誓いの言葉。
- 家族向けの単語やフレーズ、または「LOVE」や「I LOVE YOU」のような婉曲表現、または元の単語とはまったく関係のないまったく異なる単語。
- 投稿の削除。この場合、投稿全体がブロックされ、通常は修正方法がありません。
- 何もない、または完全なブロック体(█)。この場合、問題となる単語は削除されるか、猥褻な単語の長さ分、完全なブロック体で置き換えられます。
一部の罵り言葉フィルターは、文字列を単純に検索するだけです。空白文字を無視するフィルターもあれば、英数字以外の文字をすべて無視してプレーンテキストをフィルタリングするフィルターもあります。つまり、「you」という単語をフィルタリングするように設定した場合、「yo u」や「yo!u」もフィルタリングされてしまうということです。
決まり文句のコントロール
決まり文句(投稿で繰り返し使われる特定の単語やフレーズ、いわゆる「ミーム」)は、フォーラムでよく見られます。こうした決まり文句が面白さを増すと感じるユーザーもいれば、特に使いすぎると退屈だと感じるユーザーもいます。管理者は、ワードフィルターを設定して、迷惑な決まり文句をより恥ずかしいフレーズに置き換えたり、完全に削除したりすることができます。
破壊行為の抑制
インターネットフォーラムは、無意味なメッセージを繰り返し投稿しようとする荒らしや、商業ウェブサイトへのリンクを挿入しようとするスパマーによる攻撃を受けることがあります。サイトのワードフィルターを設定すれば、荒らしが使用する無意味なテキストを削除したり、投稿から特定のウェブサイトへのリンクをすべて削除したりできます。
跛行フィルター
レームネスフィルターは、スラッシュベースのウェブサイト(テキストボードやイメージボードなど)で使用されるテキストベースのワードフィルターで、記事への不適切なコメントの投稿を阻止します。フィルター対象となる項目には、以下のようなものがあります。
- 大文字が多すぎる
- 繰り返しが多すぎる
- アスキーアート
- 短すぎる、または長すぎるコメント
- ウェブページを壊そうとするHTMLタグの使用
- 「最初の投稿」のみで構成されたコメントのタイトル
- (プログラマーによって)不快/下品とみなされる単語や用語の出現
政府による検閲
中国政府は一部のインターネットコンテンツを検閲しており、一部のオンラインゲームのチャット機能にもそれが反映されています。2017年には、モバイルゲームにおける18万以上のブラックリストキーワードを調査した論文が発表されました。[ 2 ] コンテンツポリシー計画は規制当局に提出する必要がありますが、[ 3 ]連邦政府や省政府が提供する一元的な「禁止」キーワードリストは存在しないため、開発者やパブリッシャーごとに異なる「エッジケース」を許可するかどうかが異なります。[ 4 ]正規表現ベースのキーワードリストによって無害な言葉がフラグ付けされることは、ラテン文字でも漢字でも、至る所で見られます。このことが、百度の十大神話生物のように、語呂合わせや意図的なスペルミスに大きく依存する中国のインターネットスラング文化を促しました。[ 5 ]
フィルターの回避
ワードフィルターは自動化されており、特定の文字列のみを検索するため、フィルターを認識しているユーザーは、フィルターを回避するのに十分な程度に文字を変更して回避しようとすることがあります。下品な単語のフィルターを回避しようとするユーザーは、問題のある単語の文字の1つをアスタリスク、ダッシュ、または類似のものに置き換えることがあります。管理者によっては、一般的な置き換えを捕捉できるようにワードフィルターを改訂することで対応しますが、フィルター回避自体を罰則の対象とする管理者もいます。[ 6 ]ワードフィルターを回避する簡単な例としては、文字の間に記号を入力する、単語を故意に間違える、leet を使用することが挙げられます。より高度なワードフィルター回避のテクニックには、画像の使用、隠しタグの使用、キリル文字(同形異義語のなりすまし攻撃)などがあります。
もう一つの方法は、ソフトハイフンを使うことです。ソフトハイフンは、テキストを改行する際に単語を分割できる位置を示すためにのみ使用され、表示されません。単語の途中にソフトハイフンを置くと、単語が分割され、場合によっては単語フィルターで認識されなくなります。
オンラインゲーム「RuneScape」のような、より高度なフィルターはバイパスを検出できます。しかし、高感度ワードフィルターの欠点は、正当なフレーズもフィルタリングされてしまうことです。
検閲の側面
ワードフィルターはインターネットフォーラムやチャットルームにコード化されており、当該フォーラムやチャットルームに投稿されたコンテンツに対してのみ機能します。この点で、ワードフィルターはコンテンツ制御ソフトウェアとは異なります。コンテンツ制御ソフトウェアは通常、エンドユーザーのPCまたはコンピュータネットワークにインストールされ、当該PCまたはネットワークとの間で送受信されるすべてのインターネットコンテンツをフィルタリングできます。ワードフィルターはユーザーの発言をユーザーの同意なしに改変するため、依然として検閲行為とみなすユーザーもいれば、フォーラム運営者がフォーラムコンテンツを管理する権利の一部として許容できると考えるユーザーもいます。
誤検知

単語フィルターのよくある癖は、ユーザーから滑稽に思われたり、苛立たしく思われたりするものですが、フィルター対象ではない単語にも影響を及ぼしてしまうことです。これは、短い単語がフィルターされる際によく見られる問題です。例えば、「ass」という単語を検閲すると、「クラシック音楽を演奏するのに補助が必要ですか?」ではなく、「クラシック音楽を演奏するのに補助が必要ですか?」と表示されることがあります。空白を無視すると複数の単語がフィルターされ、「as suspected」が「** *uspected」となってしまうこともあります。「hard on」のようなフレーズを禁止すると、「That was a hard one!(大変だった!)」「Sorry I was hard on you(ごめん、大変だったね)」といった無害な発言が、「That was a **** **e!(大変だったね!)」「Sorry I was **** ** you(ごめん、ごめん、ごめんね)」とフィルターされてしまいます。
誤ってフィルタリングされた単語が、俗語の代替として使われることがあります。その一例がMystフォーラム「Mystcommunity」です。そこでは、「manuscript」という単語が「anus」という単語を含んでいるという理由で誤って検閲され、「m****cript」という単語が作られました。この単語は俗語の代替として採用され、フォーラムが移転した後も引き継がれました。現在では「scripting」などの代替語が数多く使用されています(ただし、主に古参のコミュニティメンバーによって使用されています)。
地名は、罵り言葉が含まれているために意図せずフィルタリングされることがあります。インターネット初期には、イギリスの地名「ペニストーン」がスパムや罵り言葉のフィルタリングから頻繁にフィルタリングされていました。[ 7 ]
実装
World of Warcraftや、最近ではHabbo HotelやRuneScapeなど、多くのゲームではユーザーがフィルターをオフにすることができます。一方、Knight Onlineのような無料の多人数同時参加型オンラインゲーム(MMO)では、そのようなオプションはありません。
Medal of HonorやCall of Dutyなどの他のゲーム( Call of Duty: World at War、Call of Duty: Black Ops、Call of Duty: Black Ops 2、Call of Duty: Black Ops 3を除く) では、スクリプト内の汚い言葉をオフにするオプションがユーザーに提供されていませんが、Gears of Warでは提供されています。
ゲーム以外にも、フォーラム、ブログ、ソーシャルメディアアプリ、子供向けウェブサイト、製品レビューなどのユーザー生成コンテンツのモデレーションにも、不適切な言葉のフィルターが利用できます。WebPurify [ 8 ]のような不適切な言葉のフィルターAPIは数多く存在し、不適切な言葉を他の文字(例えば「@#$!」)に置き換えるのに役立ちます。これらの不適切な言葉のフィルターAPIは、不適切な言葉の検索と置換機能を備えています。
参照
参考文献
- ^ 「一体いつワードフィルターが導入されたんだ?」2006年10月1日閲覧。
- ^ノッケル、ジェフリー、ルアン、ロータス、クレテ=ニシハタ、マサシ(2017年8月14日)。「中国のモバイルゲームにおけるキーワード検閲」。シチズン・ラボ。トロント大学マンク・スクール・オブ・グローバル・アフェアーズ&パブリック・ポリシー。 2025年11月6日閲覧。
- ^ Kuhns, Todd (2019年10月31日). 「中国のアプリパブリッシャーにセキュリティ評価フォームが義務化」 AppinChina . 2025年11月6日閲覧。
- ^ Knockel, Jeffrey; Ruan, Lotus; Crete-Nishihata, Masashi (2017). 「モバイルゲームにおける中国のキーワード検閲の分散化の測定」 .第7回USENIXワークショップ「インターネット上の自由でオープンなコミュニケーション」(FOCI 17) . USENIX協会. 2025年11月6日閲覧。
- ^チェン・ステラ(2022年7月27日)「『WeChat』なんて言わないで」「 .中国メディアプロジェクト. 2025年11月6日閲覧。
- ^ 「GameFAQs 利用規約」 . GameFAQs . 2008年8月4日閲覧。
- ^ Sheerin, Jude (2010年3月29日). 「スパムフィルターがカナダの雑誌の運命を決定づけた経緯」 . BBCオンライン. 2011年4月5日閲覧。
- ^ 「コンテンツモデレーションサービス | 人間とAI | WebPurifyモデレーション」。WebPurify ™コンテンツモデレーションサービス。
外部リンク
- オンラインテキスト難読化ツール– 異なる文字セット(キリル文字など)の類似の Unicode 文字に文字を置き換えます。
- テキスト フィルター- オンライン テキスト ツール:アルファベット順の並べ替え、重複の削除、英数字以外の文字をすべて削除、数字のみ、文字など。
- ランダム文字列- 卑猥な表現を削除した、人間が読める文字のランダムな文字列を生成します。
異なる文字セット(キリル文字など)の類似の Unicode 文字に文字を置き換えます。