
国際化において、CJK文字とは、中国語、日本語、韓国語の表記体系で使用される書記素の総称であり、それぞれ漢字を含みます。また、かつてベトナム語で使用されていた中国語由来の表語文字であるChữ Nômを含むCJKV 、あるいはチワン語族の表記に使用されたSawndipを含むCJKVZと呼ばれることもあります。
標準中国語(北京語)と標準広東語は、ほぼすべて漢字で表記される。一般的な識字能力には3,000字以上が必要であり、ある程度完全な範囲をカバーするには最大40,000字が必要となる。日本語は漢字の使用頻度が低く、一般的な識字能力は2,136字程度と見込まれる。韓国では漢字の使用頻度はますます少なくなっているが、固有名詞における漢字の独特な使用には、より多くの漢字の知識(およびそれによる漢字の入手性)が必要となる。2013年の時点でも、韓国の学生の中には1,800字の漢字を習得することが求められている者もいる。[ 1 ]
これらの言語で使用されるその他の文字、たとえば中国語のボポモフォやラテン語ベースのピンイン、日本語のひらがなとカタカナ、韓国語のハングルなどは厳密には「CJK 文字」ではありませんが、対象言語を完全にカバーするために必要に応じて CJK 文字セットにほぼ必ず含まれています。
中国学者のカール・レーバン (1971) は、CJK エンコード システムの初期の調査を作成しました。
20世紀初頭まで、ベトナムでは古典中国語が政府と学術の筆記言語でした。ベトナムの民間文学は、漢字と現地で作られた多くの文字を組み合わせたチョー・ノム文字で書かれていました。1920年代以降、文学の記録にはラテン語をベースとしたベトナム語アルファベットが使用されるようになりました。[ 2 ] [ 3 ]
これらすべての言語のニーズを完全にカバーするために必要な文字数は、8ビット文字エンコーディングの256文字コード空間に収まらないため、少なくとも16ビット固定幅エンコーディングまたはマルチバイト可変長エンコーディングが必要です。Unicodeバージョン2.0までの16ビット固定幅エンコーディングは、16ビットエンコーディングで対応できる文字数よりも多くの文字をエンコードする必要がある(Unicode 5.0には約7万の漢字が含まれています)こと、および中国政府が中国国内のソフトウェアにGB 18030文字セットのサポートを義務付けていることから、現在では非推奨となっています。
CJKエンコーディングは共通の文字セットを持っていますが、それらを表現するためによく使用されるエンコーディングは、東アジアの異なる政府やソフトウェア企業によって個別に開発されており、相互に互換性がありません。Unicodeは、多少の議論を伴いながらも、漢字統一と呼ばれるプロセスを通じて文字セットの統一を試みてきました。
CJK文字エンコーディングは、少なくとも漢字に加え、ピンイン、ボポモフォ、ひらがな、カタカナ、ハングルなどの言語固有の音声文字で構成されるべきである。[ 4 ]
CJK 文字エンコーディングには次のものがあります:
CJK文字セットは、割り当てられたUnicodeコード空間の大部分を占めています。複数の中国語と日本語の文字セットを単一の統一文字セットにマッピングする漢字統合プロセスの妥当性と技術的メリットについては、日本の漢字専門家の間で多くの議論があります。
これら 3 つの言語は、左から右、上から下(古代の文書では右から左、上から下)の両方で記述できますが、エンコードの問題を議論するときは通常、左から右の文字体系であると見なされます。
1980年代初頭、図書館はJACKPHY文字の符号化規格について協力しました。ケン・ルンデ氏によると、「CJK」という略語はリサーチ・ライブラリ・グループ(Research Libraries Group ) [ 5 ] (2006年にOCLCと合併)の登録商標でした。OCLCが1987年から2009年まで所有していた商標は現在失効しています[ 6 ] 。