タグ(Unicodeブロック)

タグ
範囲U+E0000..U+E007F (128コードポイント)
飛行機SSP
スクリプト一般
割り当て済み97コードポイント
未使用31 予約コードポイント 1非推奨
Unicodeのバージョン履歴
3.1 (2001)97 (+97)
Unicodeドキュメント
コードチャートウェブページ
: [ 1 ] [ 2 ]

Tags は、書式タグ文字を含むUnicode ブロックです。このブロックはASCII をミラーリングするように設計されています。元々は言語タグ用に設計されていましたが、現在は絵文字修飾子、特に地域旗用として再利用されています。

レガシー使用

U+E0001、U+E0020~U+E007Fは、もともと言語別にテキストを目に見えない形でタグ付けするために使用されていましたが[ 3 ]、その使用は推奨されなくなりました。[ 4 ] これらの文字はすべてUnicode 5.1で非推奨となりました。

Unicode 8.0のリリースにより、U+E0020~U+E007Eは非推奨文字ではなくなりました。この変更は、「将来、言語タグを表す以外の目的でタグ文字を使用する可能性への道を開くため」に行われました。[ 5 ] Unicodeは、「プレーンテキストストリーム内で言語タグを表すためにタグ文字を使用することは、テキストに関する言語情報を伝達するための非推奨のメカニズムとして依然として使用されている」と述べています。[ 5 ]

現在の使用

Unicode 9.0のリリースにより、U+E007Fは非推奨文字ではなくなりました。(U+E0001 LANGUAGE TAGは非推奨のままです。)2017年5月にリリースされたEmoji 5.0 [ 6 ]では、これらの文字は特別なシーケンスの修飾子として使用される絵文字とみなされています。

指定されている唯一の用法は、国旗の地域表示記号の使用と並んで、地域の旗を表すことである。[ 7 ]これらのシーケンスは、U+1F3F4 🏴 WAVING BLACK FLAGの後に、 CLDRでコード化された地域に対応する一連のタグ、そしてU+E007F CANCEL TAGで構成される。例えば、「gbeng」のタグ (🏴󠁧󠁢󠁥󠁮󠁧󠁿) を使用すると、一部のシステムではイングランドの国旗、「gbsct」のタグ (🏴󠁧󠁢󠁳󠁣󠁴󠁿) を使用するとスコットランドの国旗、「gbwls」のタグ (🏴󠁧󠁢󠁷󠁬󠁳󠁿) を使用するとウェールズの国旗が表示される。[ 7 ]

タグシーケンスはISO 3166-2から派生していますが、他の地方国旗(例えば米国の州)を表すシーケンスもこのメカニズムを用いて可能です。ただし、Unicodeバージョン12.0時点では、上記の3つの国旗シーケンスのみがUnicodeコンソーシアムによって「一般交換に推奨」されており、これは「複数のプラットフォームで広くサポートされる可能性が最も高い」ことを意味します。[ 8 ]

タグはLLM上で目に見えないプロンプトインジェクションを作成するために使用されています。[ 9 ]

ユニコードブロック

タグ[1] [2] [3]公式Unicodeコンソーシアムコードチャート(PDF)
 0123456789BCDEF
U+E000x 始める
u+E001x
U+E002x  SP   !    「    #    $    %    &    '    (    )    *    +    、    -    。    /  
u+E003x   0    1    2    3    4    5    6    7    8    9    :    ;    <    =    >    ?  
U+E004x  @   あ    B    C    D    E    F    G    H    私    J    K    L    M    北    お  
U+E005x   P    質問    R    S    T    あなた    V    W    X    はい    Z    [    \    ]    ^    _  
U+E006x   `    1つの    b    c    d    e    f    グラム    h    私    j    け    l    メートル    n    o  
U+E007x   p    q    r    s    t    あなた    v    わ    ×    y    z    {    |    }    〜  終わり
1. ^ Unicodeバージョン17.0時点
2.灰色の部分未割り当てのコードポイントを示す
3. ^ UnicodeコードポイントU+E0001とU+E0020からU+E007FはUnicodeバージョン5.1で非推奨となったが、Unicodeバージョン9.0ではU+E0001のみが非推奨のままとなっている。

歴史

次の Unicode 関連のドキュメントには、Tags ブロックで特定の文字を定義する目的とプロセスが記録されています。

参考文献

  1. ^ 「Unicode文字データベース」 . Unicode標準. 2023年7月26日閲覧
  2. ^ 「Unicode標準の列挙バージョン」。Unicode標準。 2023年7月26日閲覧
  3. ^ Whistler, K.; Adams, G. (1999年1月). 「RFC2482: Unicodeプレーンテキストにおける言語タグ付け」 . ネットワークワーキンググループ. doi : 10.17487/RFC2482 .{{cite journal}}:ジャーナルを引用するには|journal=ヘルプ)が必要です
  4. ^ Whistler, K.; Adams, G.; Duerst, M.; Klensin, J.; Klensin, J. (2010年11月). Presuhn, R. (編). 「RFC6082: Unicode言語タグ文字の非推奨化:RFC 2482は歴史的」 . インターネット技術タスクフォース (IETF). doi : 10.17487/RFC6082 .{{cite journal}}:ジャーナルを引用するには|journal=ヘルプ)が必要です
  5. ^ a b「Unicode 8.0.0、移行への影響」。Unicodeコンソーシアム。
  6. ^ 「絵文字バージョン5.0リスト」。Emojipedia 。 2021年724日閲覧
  7. ^ a b「UTR #51: Unicode Emoji」 . Unicodeコンソーシアム. 2017年5月18日.
  8. ^ "emoji-sequences.txt" . Unicode Consortium . 2023年6月5日. 2019年3月5日閲覧
  9. ^ 「Microsoft Copilot: 迅速なインジェクションから個人情報の窃盗まで · 赤を受け入れる」 2024年8月26日。