CNS 11643

CNS 11643
エイリアス	CSIC（中国標準交換コード）
言語	繁体字中国語
標準	CNS 11643
分類	ISO 2022、DBCS、CJKエンコード
エンコード形式	EUC-TW（全機種）; ISO-2022-CN-EXT（プレーン1～7）; ISO-2022-CN（プレーン1および2）; MS-20000（1号機と2号機）; Big5（飛行機2と1のほとんど）;
その他の関連エンコーディング	Big5、CCCII

CNS 11643文字集合（中国国家標準11643）は、正式には中国標準交換コード（CSIC ） ^{[ 1 ]}（中国語：中文標準交換碼）とも呼ばれ、台湾（中華民国）の標準文字集合である。CNS 11643の公開版および草案版は、台湾で使用するために提出されたCJK統合漢字の Unicode参照グリフのソース標準であり、 ^[²^] CNS 11643の文字集合は更新され続け、台湾の行政目的で使用されている。^[³^]

EUC-TWは、CNS 11643と ASCIIを拡張Unixコード（EUC）形式でエンコードしたものです。実際には、CNS 11643の最初の2つのプレーンに密接に関連するBig5文字セットの派生が、 Unicode導入以前は繁体字中国語の事実上の標準エンコードとして機能していました。特定のCSICプレーンを表現できる他のエンコードとしては、ISO-2022-CN（プレーン1と2）とISO-2022-CN-EXT（プレーン1から7）があります。

構造

CNS 11643 はISO 2022に準拠するように設計されているが、最初の 7 つの 94×94 文字プレーンのみがISO-IR登録されている。プレーンの総数は標準の連続的な改訂により変化しており、最新の保留中の草案では 19 プレーンであるため^{[ 2 ]} 、すべてのプレーンでエンコード可能な文字の最大数は 19×94×94 = 167884 である。プレーン 1 から 7 は標準で定義されており、2007 年以降、プレーン 10 から 15 も標準で定義されている^{[ 4 ]}^{。: 115–122}それ以前は、プレーン 12 から 15 (35344 コードポイント) はユーザー定義文字専用であった。CCCIIとは異なり、CNS 11643 での異体文字のエンコードは関連していない。

歴史

この規格の初版は1986年に発行され、Big5のレベル1と2から派生したプレーン1と2が含まれていたが、修正された画数による順序変更、重複する2つの文字の省略、プレーン1への213の古典的な部首の追加（214の康熙部首のうち、210は既存のBig5文字と実質的に重複しており、残りの3つはHKSCS文字である。^{[ 5 ]}康熙部首（Unicodeブロック）も参照）。その後、1988年（6319文字、プレーン14を占有）と1990年（7169文字、プレーン15を占有）に標準の拡張が発行された。^{[ 4 ]}^：115–122

Unicode 1.0.0 には漢字はまだ含まれていなかったものの、CNS 11643 との互換性のために文字が含まれていた。Unicode 1.0.0 では、 CJK 互換フォームブロックは「CNS 11643 互換」と題されていた。^{[ 6 ]} Unicode CJK 統合漢字セットが Unicode 1.0.1 用にコンパイルされていた際、各国の団体はCJK 共同研究グループに文字セットを提出し、それを組み込んだ。提出された CNS 11643 のバージョンには、プレーン 14 拡張に加えて、プレーン 14 に追加された追加の必要な文字（拡張の標準バージョンで最後に使用されたコードポイントである 68–21 の後）が含まれていた。^{[ 4 ]}^{: 179–180}

1992年に発行された規格の第2版では、7つの面にわたって、はるかに大規模な漢字コレクションが定義されました。1988年の第14面拡張の大部分、つまり01-01から66-38までの6148個のコードポイントは第3面に採用されました（残りの171文字、つまり66-39から68-21までのコードポイントは第4面に配分されました）。第15面拡張は含まれませんでしたが、その338文字は第4面から第7面に含まれていました。^{[ 4 ]}^{: 115–122}

2007年に発行された規格の第3版では、ユーロ記号、表意文字のゼロ、仮名、および既存のボポモフォとローマ字のサポートへの拡張が第1面に追加されました。追加の漢字を含む第10面から第14面が導入され、既存の第15面の拡張が規格自体に組み入れられました（第4面から第7面に既に存在する文字にはギャップが残されました）。また、コードポイント68–40から始まる第3面に128個の漢字が追加されました^{[ 4 ]}^{: 115–122。}これは、Unicodeへの組み込みが提案されていた1988年版の第14面への追加に基づいています。

飛行機の番号付け

CNS 11643 の異なる版、草案、実装における飛行機の番号付け
飛行機	T1	T2	（UDC）	（IBM）	T3	TF	T4	T5	T6	T7	（1992年以降）	（2007年以降）
ISO-IR	171	172	-	-	183 ^{[ a ]}	-	184	185	186	187	-	-
1986年版	1	2	12～15歳	-	-	-	-	-	-	-	-	-
IBMコードページ964 ^{[ 7 ]}	1	2	12	13	-	-	-	-	-	-	-	-
1988年の延長	1	2	12～13	-	14 ^{[ b ]}	-	-	-	-	-	-	-
1990年の延長	1	2	12～13	-	14 ^{[ b ]}	15	-	-	-	-	-	-
CJK-JRG版	1	2	-	-	14 ^{[ c ]}	-	-	-	-	-	-	-
1992年版	1	2	12～15歳	-	3 ^[あ]	-	4	5	6	7	-	-
集中治療室 2000 ^{[ 8 ]}	1	2	-	-	3 ^{[ d ]}	9	4	5	6	7	-	-
2007年版	1	2	-	-	3 ^{[ d ]}	15	4	5	6	7	8～14歳	-
集中治療室 2014 ^{[ 9 ]}	1	2	12	13	3 ^{[ d ]}	15	4	5	6	7	-	-
2007年以降^{[ 2 ]}	1	2	-	-	3 ^{[ e ]}	15	4	5	6	7	8～14歳	16～19歳

^ ^a ^b01-01 —66-38範囲のみ
^ ^a ^b01-01 —66-38および66-39—68-21範囲
^01-01 —66-38、66-39—68-21および68-40—71-10の範囲
^ ^a ^b ^c01-01 —66-38および68-40—71-10範囲
^01-01 —66-38および68-40—71-10範囲、および追加^{[ 10 ]}

現在の目的とUnicodeとの関係

CNS 11643レパートリーには、戸籍や身分証明書など台湾の行政用文字^{[ 3 ]}に加え、教育用文字も含まれている^{[ 11 ]} 。特に、第1面と第2面の文字は教育に使用されている。^{[ 12 ]} CNS 11643では、教育用文字のみがグリフ形式の正規化の対象となっている。^{[ 11 ]}現在も拡張が続けられており、19面まで追加される面が起草されているが、CNS 11643版の一部としてはまだ公開されていない。^{[ 2 ]} 2007年版の2022年改訂では、第2面の末尾にU+7934礴CJK UNIFIED IDEOGRAPH-7934が追加され、第1面と第2面のいくつかのグリフ形式が修正された^。^[¹²

CNS 11643の1992年版と2007年版、さらに最近の作業草案は、台湾で使用するために提出されたCJK統合表意文字の参照グリフのUnihanソースとして機能していますが、 ^[²^] 2017年の時点で、対応するUnicode文字がない、またはUnicodeを往復しないCNS 11643文字が数千個残っており、そのほとんどはプレーン10から14にあります。これらはUnicode補足私的使用領域にマッピングされています。^[¹³^]

場合によっては、2つ以上のCNS 11643文字が1つのUnicode CJK統合表意文字に対応することがあります。これらのケースは（CJK互換表意文字補足ブロックでカバーされている場合を除き）、現在Unicode補足私用領域コードポイントにマッピングされていますが^{[ 11 ]} 、表意文字研究グループに参加している台北コンピュータ協会は、将来的にこれらを表意文字異形シーケンスとして登録する可能性を検討しています。 ^{[ 11 ]}^{[ 14 ]}

Big5との関係

Big5エンコーディングのレベル 1 と 2 は、それぞれ CNS 11643 のプレーン 1 と 2 にほぼ対応していますが、順序が異なる場合があり、Big5 には存在するが CNS 11643 には存在しない 2 つの重複する漢字があります。これらは、範囲のリストを使用してマッピングできます。^{[ 15 ]}^{[ 16 ]}ただし、CNS 11643 プレーン 1 の 213 個の古典的な部首は、Big5 で使用できる文字に追加されるものです (ただし、 Big5 または HKSCS の対応する漢字に非可逆的にマッピングできます)。[ 5 ^]また、 2007 年には CNS 11643 プレーン 1 にさらに追加の文字が追加されました。^{[ 4 ]}^{: 115–122} Big5 の変種である Big5-2003は、CNS 11643 の部分的なエンコーディングとして定義されています。

Big5漢字レパートリーのうち、プレーン1の文字は1つだけ、最初の2つのCNS 11643プレーンの対応する文字とは異なる方法でUnicodeに慣例的にマッピングされています。つまり、U+5F5D（彝）ですが、CNSプレーン1の対応する文字は、関連する異体であるU+5F5E（彞）にマッピングされています。 ^{[ 17 ]} U+5F5Dは、CNS 11643プレーン3に別途含まれています。^{[ 5 ]}ただし、 IBMによって定義されたものなど、Big5の一部の異体マッピングでは、U+5F5DではなくU+5F5Eが含まれています。^{[ 18 ]}同様に、Big5レベル2（IBM版を含む）の1文字^{[ 19 ]}は、CNS 11643プレーン2の対応する文字とは異なるUnicodeコードポイントであるU+5284（劄）にマッピングされていますが、Unihanデータベースでは現在、CNS 11643の文字をU+7B9A（箚）にマッピングしています。U+5284はCNS 11643プレーン14に出現します。^{[ 5 ]}

参考文献

このページはCNS公式ウェブサイトの情報に基づいています。

^ ECMA (1993-01-21).中国標準交換コード (CSIC) - セット1 (PDF) . ITSCJ/ IPSJ . ISO-IR -171.
^ ^a ^b ^c ^d ^e Lunde, Ken ; Cook, Richard (2024-07-31). 「kIRG_TSource」 . Unicode Han Database (Unihan) (Unicode Standard Annex). リビジョン37. Unicode Consortium . UAX #38.
^ ^a ^b「TCAによるCJK拡張IRGワーキングセット2021への提出」(PDF) . 2021年5月7日. ISO/IEC JTC1 / SC2 /WG2/ IRG N2486.
^ ^a ^b ^c ^d ^e ^fルンデ、ケン(2008). 「3. 文字セット標準」CJKV情報処理（第2版）. O'Reilly Media . ISBN 9780596514471。
^ ^a ^b ^c ^d Lunde, Ken (2022年11月30日). 「暫定kBigFiveプロパティの拡張提案」(PDF) . UTC L2/22-288.
^ 「3.8: ブロックごとのチャート」（PDF） . Unicode標準. バージョン1.0. Unicodeコンソーシアム.
^ "IBM-964_P110-1999" . ICUデータリポジトリ. IBM / Unicodeコンソーシアム. 2009 [1999].
^ Viswanadha, Raghuram (2003) [2000-08-30]. 「CNS-11643-1992」 . International Components for Unicode . IBM / Unicode Consortium .
^ 「EUC-TW-2014: IBM-964に基づくEUC-TWの更新」国際Unicodeコンポーネント. IBM / Unicodeコンソーシアム. 2014年。
^例:「Unihan data for U+2E83A」、Unihan Database Lookup、Unicode Consortiumソース参照T3-6734、つまりプレーン 3 コードポイントを持ちます71-20。
^ ^a ^b ^c ^d「4. グリフの正規化について」（PDF） . WS2021におけるTCA文字の正規化と意味の問題への対応. 2022年3月14日. pp. 3– 5. ISO/IEC JTC1 / SC2 /WG2/ IRG N2546.
^ ^a ^b「T-Sourceグリフ修正と水平拡張」（PDF） . 2022年10月18日. ISO/IEC JTC1 / SC2 /WG2/ IRG N2580.
^ 「Unicodeの補足私用領域におけるCNS 11643」[中国語mac]。イェール大学東アジア研究評議会。
^台北コンピュータ協会 (2021-09-10). 「TCA活動報告」(PDF) . ISO/IEC JTC1 / SC2 /WG2/ IRG N2502.
^ Lunde, Ken (1995-12-18). 「4.3: CJK文字セットの互換性の問題 - 中国語（台湾）”. CJK.INF バージョン1.9 .
^ Zhu, HF.; Hu, DY.; Wang, ZG.; Kao, TC.; Chang, WCH.; Crispin, M. (1996). 「RFC 1922: インターネットメッセージの中国語文字エンコーディング」 . Requests for Comments . IETF .
^ Lunde, Ken (2018-02-15). 「IICore の探索—パート4」 . CJK Type Blog . Adobe Inc.
^ "ibm-950_P110-1999 (リードバイト 0xC2)" . International Components for Unicode Converter Explorer . Unicode Consortium . 2021年7月12日時点のオリジナルよりアーカイブ。
^ "ibm-950_P110-1999.ucm" . ICUデータリポジトリ. IBM / Unicodeコンソーシアム. 2007.<U5284> \xE3\x5A |0

外部リンク

CNS 11643 公式ウェブサイト
現在のCNS 11643オープンデータ（マッピングデータを含む）
CNS 11643-1986 の Unicode コンソーシアムマッピング：プレーン 1 と 2、および 1988 プレーン 14（2007 プレーン 14 は除く）と拡張。プレーンを示すために、1 つのプレフィックス付き 16 進数字を使用します。
International Components for Unicode (ICU) からの CNS 11643 マッピング:
- "CNS-11643-1992":オリジナルバージョン、現在のバージョン。マッピングのオリジナルバージョンには標準のプレーン1～7が含まれますが、プレーン15のレイアウトはプレーン9として含まれます。現在のバージョンにはプレーン1と2のみが含まれます。プレーンを示すために、プレフィックス0x81～0x89を使用します。
- 「EUC-TW-2014」 : プレーン 1 から 7 および 15 の標準割り当て、およびプレーン 12 および 13 の IBM 企業割り当て。プレーン 1 が 2 バイトの EUC 形式の CNS コード。
ISO-IR登録 CNS-11643 コードチャート:プレーン 1、プレーン 2、プレーン 3、プレーン 4、プレーン 5、プレーン 6、プレーン 7

[range1-7] 01-01 —66-38範囲のみ

[ranges12-9] 01-01 —66-38および66-39—68-21範囲

[10] 01-01 —66-38、66-39—68-21および68-40—71-10の範囲

[ranges13-12] 01-01 —66-38および68-40—71-10範囲

[15] 01-01 —66-38および68-40—71-10範囲、および追加^{[ 10 ]}

[1] ECMA (1993-01-21).中国標準交換コード (CSIC) - セット1 (PDF) . ITSCJ/ IPSJ . ISO-IR -171.

[unihan-tsource-2] Lunde, Ken ; Cook, Richard (2024-07-31). 「kIRG_TSource」 . Unicode Han Database (Unihan) (Unicode Standard Annex). リビジョン37. Unicode Consortium . UAX #38.

[irgn2486-3] 「TCAによるCJK拡張IRGワーキングセット2021への提出」(PDF) . 2021年5月7日. ISO/IEC JTC1 / SC2 /WG2/ IRG N2486.

[lundebook-4] ルンデ、ケン(2008). 「3. 文字セット標準」CJKV情報処理（第2版）. O'Reilly Media . ISBN 9780596514471。

[utc-l2-22-288-5] Lunde, Ken (2022年11月30日). 「暫定kBigFiveプロパティの拡張提案」(PDF) . UTC L2/22-288.

[6] 「3.8: ブロックごとのチャート」（PDF） . Unicode標準. バージョン1.0. Unicodeコンソーシアム.

[8] "IBM-964_P110-1999" . ICUデータリポジトリ. IBM / Unicodeコンソーシアム. 2009 [1999].

[11] Viswanadha, Raghuram (2003) [2000-08-30]. 「CNS-11643-1992」 . International Components for Unicode . IBM / Unicode Consortium .

[13] 「EUC-TW-2014: IBM-964に基づくEUC-TWの更新」国際Unicodeコンポーネント. IBM / Unicodeコンソーシアム. 2014年。

[14] 例:「Unihan data for U+2E83A」、Unihan Database Lookup、Unicode Consortiumソース参照T3-6734、つまりプレーン 3 コードポイントを持ちます71-20。

[about-glyph-normalisation-16] 「4. グリフの正規化について」（PDF） . WS2021におけるTCA文字の正規化と意味の問題への対応. 2022年3月14日. pp. 3– 5. ISO/IEC JTC1 / SC2 /WG2/ IRG N2546.

[irgn2580-17] 「T-Sourceグリフ修正と水平拡張」（PDF） . 2022年10月18日. ISO/IEC JTC1 / SC2 /WG2/ IRG N2580.

[18] 「Unicodeの補足私用領域におけるCNS 11643」[中国語mac]。イェール大学東アジア研究評議会。

[19] 台北コンピュータ協会 (2021-09-10). 「TCA活動報告」(PDF) . ISO/IEC JTC1 / SC2 /WG2/ IRG N2502.

[20] Lunde, Ken (1995-12-18). 「4.3: CJK文字セットの互換性の問題 - 中国語（台湾）”. CJK.INF バージョン1.9 .

[rfc1922-21] Zhu, HF.; Hu, DY.; Wang, ZG.; Kao, TC.; Chang, WCH.; Crispin, M. (1996). 「RFC 1922: インターネットメッセージの中国語文字エンコーディング」 . Requests for Comments . IETF .

[22] Lunde, Ken (2018-02-15). 「IICore の探索—パート4」 . CJK Type Blog . Adobe Inc.

[23] "ibm-950_P110-1999 (リードバイト 0xC2)" . International Components for Unicode Converter Explorer . Unicode Consortium . 2021年7月12日時点のオリジナルよりアーカイブ。

[ibm-950-ucm-24] "ibm-950_P110-1999.ucm" . ICUデータリポジトリ. IBM / Unicodeコンソーシアム. 2007.<U5284> \xE3\x5A |0

[ 1 ]

[

[

[ 4 ]

[ 5 ]

[ 6 ]

[ a ]

[ 7 ]

[ b ]

[ c ]

[ 8 ]

[ d ]

[ 9 ]

[ e ]

[ 10 ]

[ 11 ]

[ 12 ]

[

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]