
墨消しまたはサニタイズとは、文書から機密情報を削除し、より広範な読者に配布できるようにするプロセスです。これは、情報の選択的な開示を可能にすることを目的としています。通常、その結果、元の文書の意図した読者ではなく、出版または他者への配布に適した文書が作成されます。
機密情報の取り扱いなど、機密保護を目的とした場合、編集は文書の機密レベルを下げ、非機密文書を生成することを目指します。プライバシー保護を目的とした場合、多くの場合、データ匿名化と呼ばれます。サニタイズという用語は元々、印刷文書に適用されていましたが、その後、コンピュータファイルやデータ残留の問題にも適用されるようになりました。
政府文書の文脈では、編集(サニタイズとも呼ばれる)とは、一般的に、機密解除中に、文書の公開前に機密情報または分類された情報を文書から削除するプロセスを指します。

紙文書から機密情報を公開前に墨消しするには、まず文書のコピーを取り、隠したい部分を太い黒ペンで上書きし、さらにそのコピーを繰り返すという手順を踏みます。墨消しした文書を複数回コピーしない限り、光にかざすと墨消しされた部分が読める場合があります。インクが紙に染み込み、本来見えるはずの情報が隠れてしまう可能性があります。最終的には、仕上がりが汚くなってしまうことも少なくありません。また、コピー前に元の文書に直接貼り付けられる非破壊的な墨消し技術もあります。例えば、ポストイットや、様々な幅の不透明で再剥離可能な粘着テープ(「カバーアップテープ」または「墨消しテープ」)などが挙げられます。[ 1 ]
これはセキュリティリスクがわずかしかないシンプルなプロセスです。例えば、黒ペンやテープの幅が十分でない場合、コピーを注意深く確認することで、文字の長短など、テキストに関する部分的な情報が明らかになる可能性があります。また、削除されたテキストの正確な長さも認識できるため、短い編集部分の適切な文言を推測するのに役立つ場合があります。コンピューターで生成されたプロポーショナルフォントが使用されていた場合、編集部分から、近くの目に見える文字の正確な位置という形で、さらに多くの情報が漏れる可能性があります。
英国国立公文書館は、「公的機関が保有する情報から除外される資料を編集するためのガイドラインを提供する」という文書「編集ツールキット、公開前の文書からの除外情報の編集に関するガイドライン」 [ 2 ]を公表した。
コンピュータファイルの場合、安全な編集はより複雑になります。ワードプロセッサ形式では、編集されたテキストの改訂履歴が保存される場合がありますが、そこには編集されたテキストも含まれています。一部のファイル形式では、メモリの未使用部分が保存され、そこに以前のバージョンのテキストの断片が残っている場合があります。ポータブルドキュメント(PDF)形式やワードプロセッサ形式でテキストを編集する場合、テキストの上にグラフィック要素(通常は黒い四角形)を重ねることで元のテキストがファイルに残り、重ねられたグラフィックを削除するだけで元のテキストを表示できます。電子文書を効果的に編集するには、文書ファイルから関連するすべてのテキストと画像データを削除する必要があります。このプロセスは内部的には複雑ですが、PDFなどのファイルを編集するソフトウェアの「編集」機能を使えば、ユーザーは非常に簡単に実行できます。
編集作業では、編集された部分にコンテンツが制限されている理由を記載することが管理上求められる場合があります。情報公開法に基づいて公開される米国政府文書には、コンテンツが非公開となっている理由を示す免除コードが付与されます。
米国国家安全保障局(NSA)は、PDFファイルの編集手順を示すガイダンス文書を公開した。[ 3 ]

機密情報や機微な情報を含む印刷文書には、機微性が低い情報も大量に含まれてしまうことがよくあります。機微性の低い部分を、権限のない職員に開示する必要がある場合があります。そのため、印刷文書は機微情報を隠蔽または削除するためにサニタイズ処理されます。地図も同様の理由で編集されており、機密性の高い部分は白い紙で覆われています。
場合によっては、機密文書をサニタイズすることで、機密レベルを上位から下位に下げるのに十分な情報が削除されることがあります。例えば、未処理の諜報報告書には、スパイの身元など、機密性の高い情報が含まれている場合があります。これらの情報は、報告書が諜報機関の外部に配布される前に削除されます。つまり、最初の報告書は最高機密に分類されている一方で、サニタイズされた報告書は機密に分類されるといった具合です。
その他のケース、例えばUSSリバティ号事件に関するNSA報告書(右)のように、報告書が一般に公開されるよう、機密データをすべて削除してサニタイズされる場合もあります。
USSリバティの報告書に見られるように、紙の文書は通常、コピーする前に機密部分や繊細な部分を覆い、サニタイズされます。
コンピュータ(電子またはデジタル)文書のサニタイズはより困難です。多くの場合、情報システム内の情報が変更または消去されても、データの一部またはすべてがストレージに残ります。これは設計上の事故である可能性があり、基盤となるストレージメカニズム(ディスク、RAMなど)が、名目上は消去されているにもかかわらず、情報の読み取りを依然として可能にしている可能性があります。この問題は一般に「データ残留」と呼ばれます。一部の状況(特に米国国家安全保障局(NSA)、国防総省、および関連組織)では、「サニタイズ」は通常、データ残留問題への対処を指します。
しかし、この保持機能は、アンドゥバッファ、変更履歴、「ゴミ箱」、バックアップなどの形で、意図的な機能である場合もあります。例えば、 Microsoft Wordなどのワードプロセッサは、機密情報を編集して削除するために使用されることがあります。これらの製品は、ファイルに保存されているすべての情報をユーザーに常に表示するわけではないため、ファイルに機密情報が残っている可能性があります。また、経験の浅いユーザーが効果的な方法を使用しておらず、ドキュメントのサニタイズに失敗するケースもあります。メタデータ削除ツールは、機密情報の可能性を削除することで、ドキュメントを効果的にサニタイズするように設計されています。
2005年5月、米軍はイラクの米軍検問所でイタリア人秘密工作員ニコラ・カリパリが死亡した事件に関する報告書を公表した。公表された報告書はPDF形式で、機密部分がソフトウェアによって不透明なブロックで覆われるという不正確な編集が行われていた。その後まもなく、読者は、ブロックされた部分をワードプロセッサにコピー&ペーストすることで復元できることを発見した。 [ 4 ]
2006年5月24日、通信サービスプロバイダーAT&Tの弁護士は、NSAによる国内盗聴への協力に関する法的意見書[ 5 ]を提出した。PDF文書の12ページから14ページのテキストは誤って編集されており、該当箇所は復元可能であった[ 6 ] 。
2005年末、NSAはMicrosoft Word文書を安全にサニタイズする方法に関する推奨事項を示すレポートを発表しました。[ 7 ]
このような問題により、異なるセキュリティ権限を持つコンピュータユーザーが文書を共有するような多層セキュリティシステムを確実に実装することが困難になります。 「多層セキュリティの課題」では、Microsoft Wordの変更追跡機能の予期せぬ動作によって引き起こされたサニタイズ失敗の例が示されています。[ 8 ]
文書を誤って墨消しする際に最もよくある2つのミスは、機密テキストの上に画像レイヤーを追加して隠蔽する(元のテキストは削除しない)ことと、背景色をテキストの色に合わせて設定することです。どちらの場合も、墨消しされた情報は目に見える形では見えず、文書内に依然として存在し、検索や単純なコピー&ペーストによる抽出さえも不可能です。機密情報を完全に削除するには、適切な墨消しツールと手順を使用する必要があります。これは通常、複数のユーザーによるワークフローで実現されます。まず、1つのグループが文書のセクションを墨消し候補としてマークし、別のグループが墨消し候補の正しさを検証し、最後のグループが墨消しツールを操作して候補を永久に削除します。