| エイリアス | CSIC(中国標準交換コード) |
|---|---|
| 言語 | 繁体字中国語 |
| 標準 | CNS 11643 |
| 分類 | ISO 2022、DBCS、CJKエンコード |
| エンコード形式 |
|
| その他の関連エンコーディング | Big5、CCCII |
CNS 11643文字集合(中国国家標準11643)は、正式には中国標準交換コード(CSIC ) [ 1 ](中国語:中文標準交換碼)とも呼ばれ、台湾(中華民国)の標準文字集合である。CNS 11643の公開版および草案版は、台湾で使用するために提出されたCJK統合漢字のUnicode参照グリフのソース標準であり、 [ 2 ] CNS 11643の文字集合は更新され続け、台湾の行政目的で使用されている。[ 3 ]
EUC-TWは、CNS 11643とASCIIを拡張Unixコード(EUC)形式でエンコードしたものです。実際には、CNS 11643の最初の2つのプレーンに密接に関連するBig5文字セットの派生が、 Unicode導入以前は繁体字中国語の事実上の標準エンコードとして機能していました。特定のCSICプレーンを表現できる他のエンコードとしては、ISO-2022-CN(プレーン1と2)とISO-2022-CN-EXT(プレーン1から7)があります。
CNS 11643 はISO 2022に準拠するように設計されているが、最初の 7 つの 94×94 文字プレーンのみがISO-IR登録されている。プレーンの総数は標準の連続的な改訂により変化しており、最新の保留中の草案では 19 プレーンであるため[ 2 ] 、すべてのプレーンでエンコード可能な文字の最大数は 19×94×94 = 167884 である。プレーン 1 から 7 は標準で定義されており、2007 年以降、プレーン 10 から 15 も標準で定義されている[ 4 ]。: 115–122 それ以前は、プレーン 12 から 15 (35344 コード ポイント) はユーザー定義文字専用であった。CCCIIとは異なり、CNS 11643 での異体文字のエンコードは関連していない。
この規格の初版は1986年に発行され、Big5のレベル1と2から派生したプレーン1と2が含まれていたが、修正された画数による順序変更、重複する2つの文字の省略、プレーン1への213の古典的な部首の追加(214の康熙部首のうち、210は既存のBig5文字と実質的に重複しており、残りの3つはHKSCS文字である。[ 5 ]康熙部首(Unicodeブロック)も参照)。その後、1988年(6319文字、プレーン14を占有)と1990年(7169文字、プレーン15を占有)に標準の拡張が発行された。[ 4 ]:115–122
Unicode 1.0.0 には漢字はまだ含まれていなかったものの、CNS 11643 との互換性のために文字が含まれていた。Unicode 1.0.0 では、 CJK 互換フォームブロックは「CNS 11643 互換」と題されていた。[ 6 ] Unicode CJK 統合漢字セットが Unicode 1.0.1 用にコンパイルされていた際、各国の団体はCJK 共同研究グループに文字セットを提出し、それを組み込んだ。提出された CNS 11643 のバージョンには、プレーン 14 拡張に加えて、プレーン 14 に追加された追加の必要な文字(拡張の標準バージョンで最後に使用されたコードポイントである 68–21 の後)が含まれていた。[ 4 ] : 179–180
1992年に発行された規格の第2版では、7つの面にわたって、はるかに大規模な漢字コレクションが定義されました。1988年の第14面拡張の大部分、つまり01-01から66-38までの6148個のコードポイントは第3面に採用されました(残りの171文字、つまり66-39から68-21までのコードポイントは第4面に配分されました)。第15面拡張は含まれませんでしたが、その338文字は第4面から第7面に含まれていました。[ 4 ] : 115–122
2007年に発行された規格の第3版では、ユーロ記号、表意文字のゼロ、仮名、および既存のボポモフォとローマ字のサポートへの拡張が第1面に追加されました。追加の漢字を含む第10面から第14面が導入され、既存の第15面の拡張が規格自体に組み入れられました(第4面から第7面に既に存在する文字にはギャップが残されました)。また、コードポイント68–40から始まる第3面に128個の漢字が追加されました[ 4 ] : 115–122。 これは、Unicodeへの組み込みが提案されていた1988年版の第14面への追加に基づいています。
| 飛行機 | T1 | T2 | (UDC) | (IBM) | T3 | TF | T4 | T5 | T6 | T7 | (1992年以降) | (2007年以降) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ISO-IR | 171 | 172 | - | - | 183 [ a ] | - | 184 | 185 | 186 | 187 | - | - |
| 1986年版 | 1 | 2 | 12~15歳 | - | - | - | - | - | - | - | - | - |
| IBMコードページ964 [ 7 ] | 1 | 2 | 12 | 13 | - | - | - | - | - | - | - | - |
| 1988年の延長 | 1 | 2 | 12~13 | - | 14 [ b ] | - | - | - | - | - | - | - |
| 1990年の延長 | 1 | 2 | 12~13 | - | 14 [ b ] | 15 | - | - | - | - | - | - |
| CJK-JRG版 | 1 | 2 | - | - | 14 [ c ] | - | - | - | - | - | - | - |
| 1992年版 | 1 | 2 | 12~15歳 | - | 3 [あ] | - | 4 | 5 | 6 | 7 | - | - |
| 集中治療室 2000 [ 8 ] | 1 | 2 | - | - | 3 [ d ] | 9 | 4 | 5 | 6 | 7 | - | - |
| 2007年版 | 1 | 2 | - | - | 3 [ d ] | 15 | 4 | 5 | 6 | 7 | 8~14歳 | - |
| 集中治療室 2014 [ 9 ] | 1 | 2 | 12 | 13 | 3 [ d ] | 15 | 4 | 5 | 6 | 7 | - | - |
| 2007年以降[ 2 ] | 1 | 2 | - | - | 3 [ e ] | 15 | 4 | 5 | 6 | 7 | 8~14歳 | 16~19歳 |
CNS 11643レパートリーには、戸籍や身分証明書など台湾の行政用文字[ 3 ]に加え、教育用文字も含まれている[ 11 ] 。特に、第1面と第2面の文字は教育に使用されている。[ 12 ] CNS 11643では、教育用文字のみがグリフ形式の正規化の対象となっている。[ 11 ]現在も拡張が続けられており、19面まで追加される面が起草されているが、CNS 11643版の一部としてはまだ公開されていない。[ 2 ] 2007年版の2022年改訂では、第2面の末尾にU+7934礴CJK UNIFIED IDEOGRAPH-7934が追加され、第1面と第2面のいくつかのグリフ形式が修正された。[ 12
CNS 11643の1992年版と2007年版、さらに最近の作業草案は、台湾で使用するために提出されたCJK統合表意文字の参照グリフのUnihanソースとして機能していますが、 [ 2 ] 2017年の時点で、対応するUnicode文字がない、またはUnicodeを往復しないCNS 11643文字が数千個残っており、そのほとんどはプレーン10から14にあります。これらはUnicode補足私的使用領域にマッピングされています。[ 13 ]
場合によっては、2つ以上のCNS 11643文字が1つのUnicode CJK統合表意文字に対応することがあります。これらのケースは(CJK互換表意文字補足ブロックでカバーされている場合を除き)、現在Unicode補足私用領域コードポイントにマッピングされていますが[ 11 ] 、表意文字研究グループに参加している台北コンピュータ協会は、将来的にこれらを表意文字異形シーケンスとして登録する可能性を検討しています。 [ 11 ] [ 14 ]
Big5エンコーディングのレベル 1 と 2 は、それぞれ CNS 11643 のプレーン 1 と 2 にほぼ対応していますが、順序が異なる場合があり、Big5 には存在するが CNS 11643 には存在しない 2 つの重複する漢字があります。これらは、範囲のリストを使用してマッピングできます。[ 15 ] [ 16 ]ただし、CNS 11643 プレーン 1 の 213 個の古典的な部首は、Big5 で使用できる文字に追加されるものです (ただし、 Big5 または HKSCS の対応する漢字に非可逆的にマッピングできます)。[ 5 ]また、 2007 年には CNS 11643 プレーン 1 にさらに追加の文字が追加されました。[ 4 ] : 115–122 Big5 の変種である Big5-2003は、CNS 11643 の部分的なエンコーディングとして定義されています。
Big5漢字レパートリーのうち、プレーン1の文字は1つだけ、最初の2つのCNS 11643プレーンの対応する文字とは異なる方法でUnicodeに慣例的にマッピングされています。つまり、U+5F5D(彝)ですが、CNSプレーン1の対応する文字は、関連する異体であるU+5F5E(彞)にマッピングされています。 [ 17 ] U+5F5Dは、CNS 11643プレーン3に別途含まれています。[ 5 ]ただし、 IBMによって定義されたものなど、Big5の一部の異体マッピングでは、U+5F5DではなくU+5F5Eが含まれています。[ 18 ]同様に、Big5レベル2(IBM版を含む)の1文字[ 19 ]は、CNS 11643プレーン2の対応する文字とは異なるUnicodeコードポイントであるU+5284(劄)にマッピングされていますが、Unihanデータベースでは現在、CNS 11643の文字をU+7B9A(箚)にマッピングしています。U+5284はCNS 11643プレーン14に出現します。[ 5 ]
T3-6734、つまりプレーン 3 コード ポイントを持ちます71-20。<U5284> \xE3\x5A |0