文字鏡

文字鏡今昔文字鏡今昔文字鏡
開発者石川忠久(いしかわただひさ)古家時雄(古家時雄)文字鏡研究所(文字鏡研究会)
初回リリース1.0 / 1997年7月 (1997-07年
最終リリース
4.0 / 2018年12月15日 ( 2018-12-15 )
オペレーティング·システムマイクロソフトウィンドウズ
サイズ51MB
入手可能な日本語
タイプフォント文字マップがバンドルされた文字セット
ライセンス独自の
Webサイト文字京.org

文字鏡もじきょう中国語日本語、韓国語、ベトナム語のChữ Nôm、その他の歴史的中国語表語表記システムで使用される文字の完全なインデックスを提供するために作成された文字エンコード方式です。この文字セットを公開した文字鏡研究もじきょうけんきゅうかい)は、この文字セットに付随するコンピュータソフトウェアとTrueTypeコンピュータフォントも公開しました。石川忠久(いしかわただひさ会長務める文字研究は、[1 ]当初、文字セット関連ソフトウェアおよびデータを紀伊国屋書店で販売されたCD-ROMで再配布ました。 [ 2 ]

1996年に構想され、[ 3 ] CD-ROMの最初のバージョンは1997年7月にリリースされました。[ 4 ]文字鏡研究所は、一時期、「文字鏡WEB」と呼ばれる、より最新の文字を掲載したウェブサブスクリプションも提供してました。[ 5 ]

2006年9月現在、Mojikyoは174,975文字をエンコードしています。[ 6 ]そのうち、150,366文字(≈86%)は拡張中国語・日本語・韓国語・ベトナム語(CJKV)[注 2 ]ファミリーに属していました。[ 5 ] Mojikyoの文字の多くは廃止または不明瞭であると考えられており、最も広く使用されている国際的なテキストエンコード標準であるUnicodeを含む他の文字セットではエンコードされていません。

文字響研究所は、2015年に亡くなった開発者の一人、古家時雄氏を追悼するため、2015から最新リリースをフリーウェアとしてインターネットアーカイブにアップロードし始めた。[ 7 ] [ 3 ] 2018年12月15日にはバージョン4.0がリリースされた。翌日、石川氏は古家氏の死後これが文字響の最終リリースとなると発表した。[ 3 ]

前提

文字エンコードは、中国語日本語韓国語の表記体系ベトナム語のChữ Nôm表語文字で使用される文字の完全なインデックスを提供するために作成された。また、甲骨文字篆書体サンスクリットSiddhaṃ )などの古代文字の多数の文字をエンコードする。多くの文字にとって、文字エンコードは唯一の文字エンコードであり、そのデータはしばしばUnicode提案の出発点として使用される。[ 8 ] [ 9 ]しかし、文字鏡はエンコードに関してUnicodeよりはるかに緩い基準を持っているため、文字鏡には、起源が疑わしい、または意図せずに架空のグリフが多数エンコードされている。[ 10 ] [ 11 ]そのため、多くの非Unicode文字鏡文字はUnicodeへの追加に適しているが、それぞれで必要な証拠の基準が異なるため、すべてがUnicode文字になるわけではない。

構成

Mojikyōフォント(文字鏡フォント)は、ZIPファイルで提供されるTrueTypeフォントで、それぞれ約2~5MBの大きさです。フォントによって文字数は異なります。[注 3 ]また、グラフィカルな文字マップMojikyō Character Map」(文字鏡MAP)を実装したWindows実行ファイル( MOCHRMAP .EXE )も含まれています。[注 4 ] [注 5 ] MOCHRMAP.EXEを使用すると、 Mojikyōフォントを閲覧し、キーボードで入力する代わりに文字をコピー&ペーストすることができます。TrueTypeフォントをサポートする通常のWindows文字マップやKCharSelectとは異なり、MOCHRMAP.EXEは、要求された文字の番号付きMojikyōエンコーディングスロットを表示します。 [ 12 ] [注 6 ] MOCHRMAP.EXEが動作するには、すべてのMojikyōフォントがインストールされている必要があります。[注 7 ]

エンコーディング

文字鏡でエンコードされた文字を参照する場合、MXXXXXXという形式がよく用いられます[ 13 ]。これはUnicodeで用いられるU+XXXX形式に似ています。ただし、文字鏡のエンコードは10進数で表示されるのに対し、UnicodeのU+エンコードは16進数で表示されるという違いがあります。

文字鏡はUnicodeの黎明期から、この規格に影響を与え、また影響を受けてきました。文字由来のグリフは、UnicodeのすべてのCJKブロックの保守を担当するIdeographic Rapporteur Group (IRG) [ note 8 ]への提案書の中で初めて2002年4月18日に登場しました[ 14 ] [ 15 ] [ 16 ] 20075月、文字鏡はUnicodeで西夏文字をエンコードするための一連の提案書において、最終的に成功を収める小さな役割を果たしました[ 17 ] [ note 9 ]。 2002年10月までに、文字鏡はすでに6,000の西夏文字をエンコードしていました[ 6 ]

Unicode 標準の Unihan データベースでは、文字鏡を「Japanese KOKUJI Collection」 (日本国字集)、[ 18 ]略称「JK」と呼んでいます。[ 19 ] [ 20 ]たとえば、U+2B679 𫙹 CJK UNIFIED IDEOGRAPH-2B679 [注 10 ]日本語ではburizādo (ブリザード文字通りブリザード )と読まれる表意文字は、JK-66038 と同等の J-Source [注 11 ]を持っています。 JK 接頭辞 J-Source を持つすべての Unicode 文字は、Mojikyoに由来します。[ 21 ] [注 12 ]文字符号化および東アジア言語の専門家であるケン・ルンデによると、 Unicode 13.0の時点で、Unicodeの782の表意文字は文字鏡に由来しており、2つのブロックにほぼ均等に分かれています。CJK統合表意文字拡張Cが367、CJK統合表意文字拡張Eが415です。[ 20 ] [ 22 ]文字鏡由来のUnicode文字(JKで始まるJ-Sources)のすべてが、コードチャート文字鏡フォントと同じ代表グリフを持っているわけではありません。[注 13 ]調査により、文字鏡協会によって割り当てられた形状が間違っていたことが判明したため、一部の文字は最終的な符号化の前に形状が変更されました。[ 11 ] [注 14 ]

ブロック

2006年9月時点で、文字体系は174,975文字をエンコードしています。[ 6 ]そのうち150,366文字は拡張CJKV [注2 ]ファミリーに属しています。[ 5 ]エンコードされた文字の多くは廃止文字または難解文字とみなされており、国際標準であるUnicodeを含む他の文字セットではエンコードされていません。文字体系の各文字には固有の番号が付与され、文字はブロックに編成されています。

文字鏡では、CJKVの文字は伝統的な康熙部首に基づいて異なるブロックに分割されます。特に字数の多い部首、例えば9)や162)などは、筆順によってさらに分割されます。 [注 15 ]

統一なし

Unicode とは異なり、Mojikyo では意図的に漢字の統一を避けています。エンコードをコンパクトにする試みは行われておらず、Unicode のように U+FFFF 未満のすべての共通文字を保持する試みも行われていません。

一方、Unicodeでは、CJKをその一般的度に基づいてブロックに分類しています。最も一般的なものは一般的に基本多言語面に配置され、[注14 ]まれまたは不明瞭なものは補足面に配置されます。

ライセンス

文字鏡は、制限的なライセンスの下でプロプライエタリソフトウェアとして利用されている。当初、文字鏡協会は文字データの利用を阻止しようとし、文字セットとの変換表を公開した者を脅迫した。2010年7月、文字鏡協会は、少なくとも1人の日本人ユーザーが変換表を公開したり、文字鏡でエンコードされた文字をUnicodeや他の文字セットに変換したりするのを阻止するための法的努力を断念した。 [ 23 ]文字の形状を含む単なるデータは、独創性の基準を満たさないため、多くの法域で共有財産とみなされている。 [注 16 ]

しかし、この遺産のため、グリフウィキは2020年時点で文字鏡データを禁止しました。 [ 24 ]

集合的な文字体系

リビング

廃止または時代遅れ

参照

参考文献

  1. ^ “今昔文字鏡について”門司教研究所。2001 年 2 月 3 日のオリジナルからアーカイブ。2020 年7 月 6 日に取得
  2. ^ようこそ、今昔文字鏡の世界へ!『もじきょうの世界へようこそ!』紀伊國屋書店. 2005年3月4日時点のオリジナルよりアーカイブ。 2020年7月5日閲覧
  3. ^ a b c石川忠久 (2015年8月). 「古家時雄君を悼む」文字鏡研究所2020 年7 月 8 日に取得
  4. ^今昔文字経今昔文字鏡(日本語)、1997年7月、ISBN 9784314900034
  5. ^ a b c今昔文字鏡とは[文字響について]紀伊國屋書店. 2010年4月27日時点のオリジナルよりアーカイブ。 2020年7月5日閲覧
  6. ^ a b c今昔文字鏡とは『文字鏡とは何か?』紀伊國屋書店. 2005年2月5日時点のオリジナルよりアーカイブ。 2020年7月5日閲覧
  7. ^ 「検索: 作成者:"MOJIKYO Institute"」.インターネットアーカイブ. 2020年7月6日閲覧。
  8. ^高田智一、矢田努、斉藤達也 (2015年9月18日).変体仮名提案(PDF) . 翻訳:小林達夫、小林ダニエル.情報処理学会論文集. L2/15-239 . 2020年7月5日閲覧– Unicodeコンソーシアム経由.
  9. ^日浦秀樹、小林達夫、他 (2003年10月31日).表意文字異体字セレクターと異体字コレクション識別子. Open Internationalization Initiative. L2/03-413 . 2020年7月5日閲覧– Unicode Consortium経由.
  10. ^高田智和 [高田智和];織田哲治​他。 (2013 年 8 月 26 日)。平成25年度第3回文字情報検討サブワーキンググループ議事録【平成25年度(2013年)第3回文字情報検討分科会議事録】 (PDF)独立行政法人情報処理推進機構p. 2.2020年7月6日取得文字鏡研究会の関係者に聞いたところ、オランダから提案されたWG2 N36981には文字鏡のフォントが使用されているが、文字鏡研究会は関与しておらず、内容提案についても疑問があるとのことであっ。門司教研究所自体はこの提案には関与していない。さらに、その提案の内容の一部については疑問を抱いている。]
  11. ^ a b鈴木俊哉 [鈴木俊哉] (2009年7月30日).統合漢字に申請された「殷周金文集成引得」図形文字の調査[CJK統一表意文字に提出するために「殷周時代の碑文収集索引」から収集されたグリフの調査]。情報処理学会研究報告書(日本語) 2009-DD-72 (7)。情報処理学会: 2 – via Internet Archive .しかし、拡張Cの標準化作業が8年の長期期間、また事後的に用例が必須とされたため、正式に公開された拡張C漢字の典拠は初期の典拠とはかなり異なるものとなっている。 [ CJK Unified Ideographs Extension Cの標準化の取り組みには 8 年という長い年月がかかり、エンコード後に漢字の例が要求されてきたため、正式に公布された Extension C の漢字標準は元の標準とはかなり異なります。例えば、私たち日本政府は、当初、文字響協会が選定した約1,000字の漢字を申請しました。[...] 漢字の検証は文字響協会とは独立して行われたため、文字の形は、同じコードポイントの文字響のバージョンとは頻繁に変更されました。
  12. ^石川忠久 (1999年5月25日) 『パソコン悠悠漢字術 今昔文字鏡徹底活用』文字教研究所2020 年7 月 6 日に取得
  13. ^ West, Andrew ; Chan, Eiso (2018年6月1日). 「表5:全資料の水書文字比較表」(PDF) .水書文字レパートリーの分析. pp.  21– 212. ISO/IEC JTC1/SC2 /WG2 N4956; UTC L2/18-193.
  14. ^ 「Unicode標準付録#45:Uソース表意文字」。Unicode標準。Unicodeコンソーシアム。
  15. ^ 「付録E:漢民族統一史」(PDF) . Unicode標準. Unicodeコンソーシアム. 2020年3月.
  16. ^ 「CJK Extension C1 From Japan」 . Ideographic Rapporteur Group . IRG#19 N895 –香港中文大学コンピュータサイエンス・エンジニアリング学部経由. N895-Japan_C1
  17. ^ Cook, Richard (2007年5月9日). UCS Plane 1における西暦前文字のエンコード提案(PDF) . UC Berkeley Script Encoding Initiative. p. 4. L2/07-143 – Unicode Consortium経由.
  18. ^ Jenkins, John H.; Cook, Richard; Lunde, Ken, 編 (2020年3月5日)、「kIRG JSource」Unicode標準付録#38Unicodeコンソーシアム
  19. ^小林達夫(2001年12月3日). 「拡張Cで提案される可能性のある日本語表意文字一覧」 . ISO/IEC JTC1/SC2/WG2/IRG N853.
  20. ^ a b Ken Lunde [@ken_lunde] (2020年7月6日). 「特に、JKで始まる782個の表意文字はすべて、IRG N862に従って今昔文字鏡に由来しています。ほとんどは#ExtensionCでエンコードされ、残りは#ExtensionEでエンコードされました。」 (ツイート) . 2020年7月6日閲覧– Twitter経由
  21. ^ Ken Lunde [@ken_lunde] (2020年7月6日). 「JK接頭辞付きのJ-Source表意文字は、Extensions CとEに含まれる今昔文字鏡に由来しています(Extension Dについて言及したのは、Extension Eとなったものが、もともとExtension Dとなることを想定していたというだけのことです)」 (ツイート). 2020年7月7日時点のオリジナルよりアーカイブ。 2020年7月6日閲覧Twitter経由。
  22. ^ Ken Lunde [@ken_lunde] (2020年7月6日). 「JK接頭辞付き表意文字367個は拡張Cに、残りの415個は拡張Eに含まれています。」 (ツイート) . 2020年7月6日閲覧– Twitter経由
  23. ^ “終末宣言” [宣言: 戦争は終わった]. 青蛙亭漢語塾[清和亭の漢字] (2016年1月28日版). 2010年7月21日. 2020年7月7日閲覧
  24. ^ “データ・記事のライセンス” [当社のデータと記事のライセンス]. GlyphWiki (2010 年 6 月 9 日版) 2020 年7 月 6 日取得今昔文字鏡およびその関連製品、データは、そのライセンス上グリフウィキには配置することができませ。そのため、上記の GlyphWiki ライセンスと互換性がありません。 GlyphWiki にデータを入力する際に​​は、文字協エンコード スロットの番号、文字協フォント内のグリフ自体の外観、文字協製品を参照することによって収集されたと判断できるいかなる情報も使用することはできません。文字京データは絶対に受け入れられません 。ご協力お願い致します。】

注記

  1. ^現時点ではUnicodeエンコードがないため、ここではCSSU+30BBSEKATAKANA LETTER SEを使用して近似しています。
  2. ^ a b韓国語では、Hanjaを指します。ベトナム語の場合、Chữ Nôm
  3. ^公式サイトからMojikyoCmap400ALL49TTF.7zファイルをダウンロードします
  4. ^英語名は実行可能ファイルを実行すると表示されるウィンドウのタイトルから、日本語名は実行可能ファイルのアイコンから取得されます。
  5. ^「文字鏡地図」とも呼ばれる。
  6. ^公式サイトのスクリーンショットをご覧ください
  7. ^システムフォントディレクトリC:\Windows\Fontsへ。
  8. ^ 2019年現在、IRGはIdeographic Research Groupにブランド名を変更しました。
  9. ^ Tangut 文字のエンコードの歴史は非常に複雑です。関連するすべての提案とタイムラインの完全なリストについては、 Tangut (Unicode ブロック) § History を参照してください。
  10. ^表意文字記述シーケンス: ⿰魚嵐
  11. ^これはUnihanデータベース列名です。ここでの⟨J⟩は「Japanese glyph source(日本語グリフソース)」の略です。列の正式名称は です。Han unification(漢字統一)では、このようなソースが9つあります。完全なリストと詳細については、 UAX#38の§3.1を参照してください。kIRG_JSource
  12. ^ J4 など、他の J-Source 接頭辞も存在します。これは、文字がJIS X 0213:2004に由来することを意味します。
  13. ^つまり、同じ位置にある同じ部首で構成される文字です。
  14. ^ a b大規模な表意文字集に誤りが存在することは、もちろん珍しいことではありません。こうした誤りは、政府が潤沢な資金を投じて作成した集成にも偶発的に発生することがあります。例えば、日本工業標準調査会の2バイト文字符号化規格JIS X 0208に含まれる、出典不明の有名な漢字などがその例です。これらのJIS X 0208の誤り漢字(幽霊文字、例:)は、「本物の」漢字ではないにもかかわらず、Unicodeに取り込まれています。
  15. ^証拠として、文字鏡文字マップMOCHRMAP.EXEのリストを参照してください。
  16. ^参照:架空エントリートラップストリート