異体形(Unicode)

異体字は、文字の代替グリフであり、異体シーケンスのメカニズムを通じてUnicodeでエンコードされます。異体シーケンスは、基本文字とそれに続く異体セレクター文字で構成される Unicode のシーケンスです。

異体字は通常、基本文字と外観と意味が非常に似ています。このメカニズムは、異体字が利用できない場合に基本文字を表示してもテキストの意味が変わらず、多くの読者には気づかれないような異体字を対象としています。

Unicode では、次の 2 種類のバリエーション シーケンスが定義されています。

  • StandardizedVariants.txtで定義された標準化変異配列[ 1 ]
  • 表意文字異形データベース(IVD)で定義された表意文字異形シーケンス[ 2 ] [ 3 ]

バリエーションセレクター文字は、いくつかの Unicode ブロックに存在します。

アラビア語やラテン語の筆記体文字では、異体字セレクタは必要ありません。これらの文字では、文脈に基づいてグリフの置換が行われる可能性があります。つまり、文字が単語の先頭文字、末尾文字、中間文字、または単独文字であるかに応じて、グリフが連結される可能性があります。このようなグリフの置換は、文字の文脈によって容易に処理され、他のオーサリング入力は必要ありません。また、オーサリングは、ジョイナー文字や非ジョイナー文字などの特殊文字を使用することで、本来は表示されないグリフの代替形式を強制的に適用することもできます。合字も同様の例で、リッチテキスト属性として合字のオン/オフを切り替えるだけでグリフを置換できます。

その他のグリフ置換については、著者の意図はテキストにエンコードされる必要があり、文脈から判断できない場合があります。これは、外字と呼ばれる文字/グリフの場合に当てはまります。外字では、歴史的に、あるいは姓を表す表意文字として、同じ文字に異なるグリフが使用されています。これは、グリフと文字を区別する際のグレーゾーンの一つです。姓が、その由来となる表意文字とわずかに異なる場合、それは単純なグリフの異体なのでしょうか、それとも文字の異体なのでしょうか?

文字の置換は、 OpenTypeレイアウトタグなど、Unicode以外でも発生することがあります。 [ 4 ]

標準化された変異配列を持つブロック

Unicodeバージョン17.0では、絵文字/テキスト表現に特化した標準化されたバリエーションシーケンスが、基本文字に対して20ブロックで定義されている。[ 1 ]

その他の標準化された変異配列は、次の16ブロックの基本文字で形成されます。[ 1 ]

表意文字のバリエーションシーケンスを持つブロック

2025年7月14日現在、基本文字の表意文字の異体字シーケンスは11のブロックで定義されている:[ 2 ] [ 3 ]

参照

参考文献

  1. ^ a b c「UCD: 標準化された変異シーケンス」。Unicodeコンソーシアム。
  2. ^ a b「Ideographic Variation Database」。Unicodeコンソーシアム。
  3. ^ a b「UTS #37、Unicode表意文字異体データベース」。Unicodeコンソーシアム。
  4. ^ 「言語システムタグ」。Microsoft。2022年9月30日。