情報交換のためのタミル文字コード

タミル文字情報交換コードTSCII )は、タミル文字を表すための符号化方式です。下位128コードポイントはプレーンASCIIで、上位128コードポイントはTSCII固有のものです。長年にわたりインターネット上で私的な合意に基づいて使用されてきた後、2007年にIANAに登録されました。 [ 1 ]

TSCIIは、タミル語タイプライターの用法に倣い、文字を視覚的(書き言葉)順序で符号化します。Unicodeは、タミル語に対してはISCIIに倣い、論理順序符号化戦略を採用しています。これは、 TIS-620を継承した視覚順序符号化方式が採用されたタイ語とは対照的です。

タミル・ナードゥ州政府は、8 ビット エンコーディング用の独自の TAB/TAM 標準を承認しており、その他の古いエンコーディング スキームも Web 上で見つけることができます。

歴史

1990年代半ば、様々なメーリングリストベースのフォーラムのメンバーは、タミル語の共通エンコーディングの必要性を感じていました。これらのフォーラムでは複数のカスタムコードフォントが普及していたためです。商用エンコーディングの中には他のものよりも人気のあるものもありましたが、商業的利益の相反により、コミュニティ全体には受け入れられませんでした。Unicodeは将来の標準として広く受け入れられましたが、当時のデスクトップシステムのほとんどはタミル語のUnicodeを処理できず、暫定的な8ビットエンコーディングが必要でした。

1997年、こうしたエンコーディングに関する議論のための別のメーリングリスト(webmasters@tamil.net)が作成され、議論が始まりました。そのきっかけとなったのは、K.Kalyanasundaram博士が、タミル語キーボード標準化委員会の委員長を務めていた著名なタミル語作家Sujatha氏に宛てたメールでした。 [ 2 ] このフォーラムは、著名なタミル語学者を含む、世界中から熱心な参加者を瞬く間に集めました。これらの議論のアーカイブはINFITTによって保存されています。[ 3 ]

TSCII の公開後、webmasters@tamil.net メーリング リストのメンバーのほとんどが、タミル語コンピューティングのさまざまな領域で標準化と継続的な開発を推進するより広範な取り組みである INFITT に参加しました。

コードページレイアウト

TSCII
0 1 2 3 4 5 6 7 8 9 B C D E F
8倍 [ a ]ஸ்ரீ க்ஷ ஜ் ஷ் ஸ் ஹ் க்ஷ்
9倍 ''ஙு ஞு ஙூ ஞூ
NBSPி ©
バックス
センチ டி டீ கு சு டு ணு
診断 து நு பு மு யு ரு லு வு ழு ளு று னு கூ சூ டூ ணூ
தூ நூ பூ மூ யூ ரூ லூ வூ ழூ ளூ றூ னூ க் ங் ச் ஞ்
FX ட் ண் த் ந் ப் ம் ய் ர் ல் வ் ழ் ள் ற் ன்
  1. ^ U+0BE6 タミル語の数字ゼロ、2005年3月にUnicodeバージョン4.1で追加された。

変換ツール

UTF-8でエンコードされたテキストは、次のようにGNU iconvツールを使用してTSCIIに変換できます。

$ iconv -f utf-8 -t tscii hello.utf8 > hello.tscii 

一方、TSCII から UTF-8 への変換は、-fフラグと-tフラグを交換することによって行われます。

参照

参考文献