HZ（文字エンコーディング）

HZエンコーディング
MIME / IANA	HZ-GB-2312
言語	簡体字中国語、英語、ロシア語
作成者	フォン・フォン・リー
標準	RFC 1843
分類	CJKエンコーディング、ASCIIアーマー、可変幅エンコーディング、ステートフルエンコーディング
変換/エンコード	GB 2312
先行	zW
後継者	Quoted-printable、UTF - 7、8BITMIME

HZ文字エンコーディング^{[ 1 ]}は、かつて電子メールやUSENETの投稿で広く使用されていたGB 2312のエンコーディングです。1989年にスタンフォード大学のFung Fung Lee（中国語：李楓峰）によって設計され、その後1995年にRFC 1843として体系化されました。^[²^]

HZ （Hanzi 、簡体字中国語：汉字、繁体字中国語：漢字、直訳すると「中国語の文字」）は、当時7ビット文字しか使用できなかった電子メールで中国語の文字を容易に使用できるようにするために考案されました。そのため、HZコードは、標準のISO 2022エスケープシーケンス（ISO-2022-JPの場合）や8ビット文字（ EUCの場合）の代わりに、印刷可能な7ビット文字のみを使用して中国語の文字を表します。

これは USENET ネットワークでも人気がありましたが、1980 年代後半から 1990 年代前半にかけては、8 ビット文字やエスケープ文字の送信が一般的に許可されていませんでした。

歴史

HZは、文字で始まる行全体をGB 2312テキストとしてマークする以前の「zW」エンコーディングに取って代わりましたzW。^{[ 3 ]}

構造と使用

HZエンコードシステムでは、「~{」と「~}」という文字シーケンスはエスケープシーケンスとして機能します。これらの文字シーケンスの間にある文字は、GB 2312でエンコードされた中国語として解釈されます（最上位ビットは無視されます）。エスケープシーケンスの外側にある文字は、ASCII文字とみなされます。

次の例は、 GB 2312、EUC-CN、および HZ コードの関係を説明するのに役立ちます。

GB 2312コード（0xD2BB）の「一」の文字のさまざまな形式
形状	コード	エスケープシーケンス付き	備考
区点/ 区威 /区位フォーム	5027	—	ゾーン/区/行 (区/区) 50、点 (テン/ウェイ/位) 27
ISO 2022フォーム	52 ₁₆ 3B ₁₆	0E ₁₆ 52 ₁₆ 3B ₁₆ 0F ₁₆	50 + 32 = 82 = 52 ₁₆
EUC-CNフォーム	D2 ₁₆ BB ₁₆	D2 ₁₆ BB ₁₆	52 ₁₆ ∨ 80 ₁₆ = D2 ₁₆
HZフォーム（標準）	52 ₁₆ 3B ₁₆	7E ₁₆ 7B ₁₆ 52 ₁₆ 3B ₁₆ 7E ₁₆ 7D ₁₆	HZデコーダーなしでは ~{R;~}と表示されます
HZ型（代替）	D2 ₁₆ BB ₁₆	7E ₁₆ 7B ₁₆ D2 ₁₆ BB ₁₆ 7E ₁₆ 7D ₁₆	少なくとも一部のデコーダーで受け入れられるEUC形式

HZは元々、純粋に7ビットコードとして使用することを目的として設計されました。しかし、状況によっては、EUC-CNで表現された文字をエスケープシーケンス「~{」と「~}」で囲むことがあります。この代替使用法により、HZデコーダーソフトウェア、またはEUC-CNを理解するシステムを使用することで、中国語を判読できるようになります。

さらに、仕様では次のことが定義されています。

シーケンス「~~」は単一のASCII「~」をエンコードしたものとして扱われ、
改行文字「~」は破棄されます。

ただし、すべての HZ デコーダーがこれら 2 つのルールに従うわけではありません。

HZエンコーダとデコーダ

最初のHZエンコーダとデコーダは、1989年にコードの発明者によってUnixオペレーティングシステム用に書かれました。^{[ 4 ]}

hzttyプログラムもUnixオペレーティングシステム用で、初期のHZデコーダーの一つであり、最も広く普及したデコーダーの一つでした。エスケープシーケンス（「~{」と「~}」）を表示する点と、「~~」と「~」に続く改行を特別扱いしない点が仕様から外れています。これはおそらく、1文字が（テキスト画面上で）1画面分を占めると想定するソフトウェアが、修正なしで正しく動作するようにするためだったと考えられます。

Microsoft Windowsでのサポートは後から開始され、多くのサードパーティ製の「中国語システム」がHZをサポートしています。これらのシステムでは、エスケープシーケンスを非表示にするオプションが提供されている場合があります。

デメリット

エスケープシーケンス、そしてさらにエスケープ区切り文字がASCIIの印字可能な文字であるため、HZとUnicodeを往復する攻撃バイトシーケンスを構築するのは非常に容易です。そのため、HZエンコーディングの使用は、マルウェア対策スイートによって疑わしいものとして扱われます。^{[ 5 ]}

参考文献

^ 「HZ — 任意に混合された中国語とASCII文字のファイルを交換するデータ形式」。2005年10月27日時点のオリジナルよりアーカイブ。
^ RFC 1843
^ケン、ルンデ(1995-12-18)。「CJK.INF バージョン 1.9」。
^ 「HZ パッケージ 2.0 — HZ 仕様、参照エンコーダおよびデコーダソースコード」。
^ “935453 - HZおよび削除を検討しているその他のエンコードに関するテレメトリを収集する”。2017年5月19日時点のオリジナルよりアーカイブ。2018年6月18日閲覧。

[hz-1] 「HZ — 任意に混合された中国語とASCII文字のファイルを交換するデータ形式」。2005年10月27日時点のオリジナルよりアーカイブ。

[rfc-2] RFC 1843

[3] ケン、ルンデ(1995-12-18)。「CJK.INF バージョン 1.9」。

[hz-package-4] 「HZ パッケージ 2.0 — HZ 仕様、参照エンコーダおよびデコーダソースコード」。

[5] “935453 - HZおよび削除を検討しているその他のエンコードに関するテレメトリを収集する”。2017年5月19日時点のオリジナルよりアーカイブ。2018年6月18日閲覧。

[ 1 ]

[

[ 3 ]

[ 4 ]

[ 5 ]