CNS 11643

CNS 11643
エイリアスCSIC(中国標準交換コード)
言語繁体字中国語
標準CNS 11643
分類ISO 2022DBCSCJKエンコード
エンコード形式
その他の関連エンコーディングBig5CCCII

CNS 11643文字集合(中国国家標準11643)は、正式には中国標準交換コードCSIC ) [ 1 ]中国語中文標準交換碼)とも呼ばれ、台湾(中華民国)の標準文字集合である。CNS 11643の公開版および草案版は、台湾で使用するために提出されたCJK統合漢字のUnicode参照グリフのソース標準であり、 [ 2 ] CNS 11643の文字集合は更新され続け、台湾の行政目的で使用されている。[ 3 ]

EUC-TWは、CNS 11643とASCIIを拡張Unixコード(EUC)形式でエンコードしたものです。実際には、CNS 11643の最初の2つのプレーンに密接に関連するBig5文字セ​​ットの派生が、 Unicode導入以前は繁体字中国語の事実上の標準エンコードとして機能していました。特定のCSICプレーンを表現できる他のエンコードとしては、ISO-2022-CN(プレーン1と2)とISO-2022-CN-EXT(プレーン1から7)があります。

構造

CNS 11643 はISO 2022に準拠するように設計されているが、最初の 7 つの 94×94 文字プレーンのみがISO-IR登録されている。プレーンの総数は標準の連続的な改訂により変化しており、最新の保留中の草案では 19 プレーンであるため[ 2 ] 、すべてのプレーンでエンコード可能な文字の最大数は 19×94×94 = 167884 である。プレーン 1 から 7 は標準で定義されており、2007 年以降、プレーン 10 から 15 も標準で定義されている[ 4 ]。: 115–122 それ以前は、プレーン 12 から 15 (35344 コード ポイント) はユーザー定義文字専用であった。CCCIIとは異なり、CNS 11643 での異体文字のエンコードは関連していない。

歴史

この規格の初版は1986年に発行され、Big5のレベル1と2から派生したプレーン1と2が含まれていたが、修正された画数による順序変更、重複する2つの文字の省略、プレーン1への213の古典的な部首の追加(214の康熙部首のうち、210は既存のBig5文字と実質的に重複しており、残りの3つはHKSCS文字である。[ 5 ]康熙部首(Unicodeブロック)も参照)。その後、1988年(6319文字、プレーン14を占有)と1990年(7169文字、プレーン15を占有)に標準の拡張が発行された。[ 4 ]:115–122

Unicode 1.0.0 には漢字はまだ含まれていなかったものの、CNS 11643 との互換性のために文字が含まれていた。Unicode 1.0.0 では、 CJK 互換フォームブロックは「CNS 11643 互換」と題されていた。[ 6 ] Unicode CJK 統合漢字セットが Unicode 1.0.1 用にコンパイルされていた際、各国の団体はCJK 共同研究グループに文字セットを提出し、それを組み込んだ。提出された CNS 11643 のバージョンには、プレーン 14 拡張に加えて、プレーン 14 に追加された追加の必要な文字(拡張の標準バージョンで最後に使用されたコードポイントである 68–21 の後)が含まれていた。[ 4 ] : 179–180

1992年に発行された規格の第2版では、7つの面にわたって、はるかに大規模な漢字コレクションが定義されました。1988年の第14面拡張の大部分、つまり01-01から66-38までの6148個のコードポイントは第3面に採用されました(残りの171文字、つまり66-39から68-21までのコードポイントは第4面に配分されました)。第15面拡張は含まれませんでしたが、その338文字は第4面から第7面に含まれていました。[ 4 ] : 115–122

2007年に発行された規格の第3版では、ユーロ記号、表意文字のゼロ、仮名、および既存のボポモフォローマ字のサポートへの拡張が第1面に追加されました。追加の漢字を含む第10面から第14面が導入され、既存の第15面の拡張が規格自体に組み入れられました(第4面から第7面に既に存在する文字にはギャップが残されました)。また、コードポイント68–40から始まる第3面に128個の漢字が追加されました[ 4 ] : 115–122。 これは、Unicodeへの組み込みが提案されていた1988年版の第14面への追加に基づいています。

飛行機の番号付け

CNS 11643 の異なる版、草案、実装における飛行機の番号付け
飛行機 T1T2UDCIBMT3TFT4T5T6T7(1992年以降)(2007年以降)
ISO-IR171172--183 [ a ]-184185186187--
1986年版 1212~15歳---------
IBMコードページ964 [ 7 ]121213--------
1988年の延長 1212~13-14 [ b ]-------
1990年の延長 1212~13-14 [ b ]15------
CJK-JRG版 12--14 [ c ]-------
1992年版 1212~15歳-3 []-4567--
集中治療室 2000 [ 8 ]12--3 [ d ]94567--
2007年版 12--3 [ d ]1545678~14歳-
集中治療室 2014 [ 9 ]1212133 [ d ]154567--
2007年以降[ 2 ]12--3 [ e ]1545678~14歳16~19歳
  1. ^ a b01-0166-38範囲のみ
  2. ^ a b01-0166-38および66-3968-21範囲
  3. ^01-0166-3866-3968-21および68-4071-10の範囲
  4. ^ a b c01-0166-38および68-4071-10範囲
  5. ^01-0166-38および68-4071-10範囲、および追加[ 10 ]

現在の目的とUnicodeとの関係

CNS 11643レパートリーには、戸籍や身分証明書など台湾の行政用文字[ 3 ]に加え、教育用文字も含まれている[ 11 ] 。特に、第1面と第2面の文字は教育に使用されている。[ 12 ] CNS 11643では、教育用文字のみがグリフ形式の正規化の対象となっている。[ 11 ]現在も拡張が続けられており、19面まで追加される面が起草されているが、CNS 11643版の一部としてはまだ公開されていない。[ 2 ] 2007年版の2022年改訂では、第2面の末尾にU+7934CJK UNIFIED IDEOGRAPH-7934が追加され、第1面と第2面のいくつかのグリフ形式が修正された[ 12

CNS 11643の1992年版と2007年版、さらに最近の作業草案は、台湾で使用するために提出されたCJK統合表意文字の参照グリフのUnihanソースとして機能していますが、 [ 2 ] 2017年の時点で、対応するUnicode文字がない、またはUnicodeを往復しないCNS 11643文字が数千個残っており、そのほとんどはプレーン10から14にあります。これらはUnicode補足私的使用領域にマッピングされています。[ 13 ]

場合によっては、2つ以上のCNS 11643文字が1つのUnicode CJK統合表意文字に対応することがあります。これらのケースは(CJK互換表意文字補足ブロックでカバーされている場合を除き)、現在Unicode補足私用領域コードポイントにマッピングされていますが[ 11 ] 、表意文字研究グループに参加している台北コンピュータ協会は、将来的にこれらを表意文字異形シーケンスとして登録する可能性を検討しています。 [ 11 ] [ 14 ]

Big5との関係

Big5エンコーディングのレベル 1 と 2 は、それぞれ CNS 11643 のプレーン 1 と 2 にほぼ対応していますが、順序が異なる場合があり、Big5 には存在するが CNS 11643 には存在しない 2 つの重複する漢字があります。これらは、範囲のリストを使用してマッピングできます。[ 15 ] [ 16 ]ただし、CNS 11643 プレーン 1 の 213 個の古典的な部首は、Big5 で使用できる文字に追加されるものです (ただし、 Big5 または HKSCS の対応する漢字に非可逆的にマッピングできます)。[ 5 ]また 2007 年には CNS 11643 プレーン 1 にさらに追加の文字が追加されました。[ 4 ] : 115–122 Big5 の変種である Big5-2003は、CNS 11643 の部分的なエンコーディングとして定義されています。

Big5漢字レパートリーのうち、プレーン1の文字は1つだけ、最初の2つのCNS 11643プレーンの対応する文字とは異なる方法でUnicodeに慣例的にマッピングされています。つまり、U+5F5D(彝)ですが、CNSプレーン1の対応する文字は、関連する異体であるU+5F5E()にマッピングされています。 [ 17 ] U+5F5Dは、CNS 11643プレーン3に別途含まれています。[ 5 ]ただし、 IBMによって定義されたものなど、Big5の一部の異体マッピングでは、U+5F5DではなくU+5F5Eが含まれています。[ 18 ]同様に、Big5レベル2(IBM版を含む)の1文字[ 19 ]は、CNS 11643プレーン2の対応する文字とは異なるUnicodeコードポイントであるU+5284()にマッピングされていますが、Unihanデータベースでは現在、CNS 11643の文字をU+7B9A()にマッピングしています。U+5284はCNS 11643プレーン14に出現します。[ 5 ]

参考文献

  1. ^ ECMA (1993-01-21).中国標準交換コード (CSIC) - セット1 (PDF) . ITSCJ/ IPSJ . ISO-IR -171.
  2. ^ a b c d e Lunde, Ken ; Cook, Richard (2024-07-31). 「kIRG_TSource」 . Unicode Han Database (Unihan) (Unicode Standard Annex). リビジョン37. Unicode Consortium . UAX #38.
  3. ^ a b「TCAによるCJK拡張IRGワーキングセット2021への提出」(PDF) . 2021年5月7日. ISO/IEC JTC1 / SC2 /WG2/ IRG N2486.
  4. ^ a b c d e fルンデ、ケン(2008). 「3. 文字セット標準」CJKV情報処理(第2版). O'Reilly Media . ISBN 9780596514471
  5. ^ a b c d Lunde, Ken (2022年11月30日). 「暫定kBigFiveプロパティの拡張提案」(PDF) . UTC L2/22-288.
  6. ^ 「3.8: ブロックごとのチャート」(PDF) . Unicode標準. バージョン1.0. Unicodeコンソーシアム.
  7. ^ "IBM-964_P110-1999" . ICUデータリポジトリ. IBM / Unicodeコンソーシアム. 2009 [1999].
  8. ^ Viswanadha, Raghuram (2003) [2000-08-30]. 「CNS-11643-1992」 . International Components for Unicode . IBM / Unicode Consortium .
  9. ^ 「EUC-TW-2014: IBM-964に基づくEUC-TWの更新」国際Unicodeコンポーネント. IBM / Unicodeコンソーシアム. 2014年。
  10. ^例:「Unihan data for U+2E83A」Unihan Database LookupUnicode Consortiumソース参照T3-6734、つまりプレーン 3 コード ポイントを持ちます71-20
  11. ^ a b c d「4. グリフの正規化について」(PDF) . WS2021におけるTCA文字の正規化と意味の問題への対応. 2022年3月14日. pp.  3– 5. ISO/IEC JTC1 / SC2 /WG2/ IRG N2546.
  12. ^ a b「T-Sourceグリフ修正と水平拡張」(PDF) . 2022年10月18日. ISO/IEC JTC1 / SC2 /WG2/ IRG N2580.
  13. ^ 「Unicodeの補足私用領域におけるCNS 11643」[中国語mac]イェール大学東アジア研究評議会。
  14. ^台北コンピュータ協会 (2021-09-10). 「TCA活動報告」(PDF) . ISO/IEC JTC1 / SC2 /WG2/ IRG N2502.
  15. ^ Lunde, Ken (1995-12-18). 「4.3: CJK文字セットの互換性の問題 - 中国語(台湾)”. CJK.INF バージョン1.9 .
  16. ^ Zhu, HF.; Hu, DY.; Wang, ZG.; Kao, TC.; Chang, WCH.; Crispin, M. (1996). 「RFC 1922: インターネットメッセージの中国語文字エンコーディング」 . Requests for Comments . IETF .
  17. ^ Lunde, Ken (2018-02-15). 「IICore の探索—パート4」 . CJK Type Blog . Adob​​e Inc.
  18. ^ "ibm-950_P110-1999 (リードバイト 0xC2)" . International Components for Unicode Converter Explorer . Unicode Consortium . 2021年7月12日時点のオリジナルよりアーカイブ
  19. ^ "ibm-950_P110-1999.ucm" . ICUデータリポジトリ. IBM / Unicodeコンソーシアム. 2007.<U5284> \xE3\x5A |0