アラビア文字の頻度

テキスト内の文字の頻度は、暗号解読、特に頻度分析に使用するために研究されてきました。

どの言語にも正確な文字頻度分布はありません。なぜなら、書き手によって書き方が少しずつ異なるからです。原則として、アラビア文字を使用する異なる言語（アラビア語、クルド語、マレー語、ペルシア語、ウルドゥー語など）のテキストでは、文字頻度が異なります。これは、一部の言語でのみ使用される文字（例えば、標準アラビア語には含まれないڤ、پ、چ、گ、ڨなど）の場合に最も顕著です。

最も頻繁に使用される文字を最短の記号でエンコードする方法は電信コードで開拓され、ハフマン符号化などの現代のデータ圧縮技術で使用されています。

アラビア文字

アラビア語のアルファベットは28個の基本文字で構成されており、これらは表1の1番目から28番目の文字に相当します。同じ表の29番目から36番目に記載されている8個の修正文字も、同じように使用されます。これらの8個の修正形を、形状や音韻の類似性に基づいて基本リストに組み込むと、表2のようになります。正確な頻度分析を行うため、表1の36個の文字はそれぞれ独立して頻度をカウントします。

表に示されているアルファベットの順序は、Unicode標準で使用されている順序よりも論理的です。

図 1:アラビア文字キーボード Intellarkを使用して入力できるアラビア文字。

表1：アラビア語のアルファベット。1から28までの文字が基本文字。29から36までの文字が変形文字。

図 1 に示すように、アラビア文字の完全なセットには約 10 個の分音記号が含まれていますが、アラビア文字の頻度分析は、表 2 に示すアルファベット文字の頻度の計算のみに関係します。

一般的な情報源を用いたアラビア文字の頻度

頻度統計を行うために許容できる量のデータを生成するために、次のアラビア語ソースが使用されます。

イブン・カスィールのシリーズ「始まりと終わり」^{[ 1 ]}の最初の7巻で、2,855ページ、1,096,047語、4,326,031文字が含まれています。
アルムバラクフーリの『封印された蜜』^{[ 2 ]}の本は284ページ、134,662語、553,740文字で構成されています。
アル・シュリの『花嫁の傑作』 [ ³^]^という本は239ページで、66,550語、242,361文字が含まれています。

これらの資料を合計すると、ページ数は 3,378 ページ、語数は 1,297,259 語、文字数は 5,122,132 文字になります。

次のグラフは、カウントされた文字の文字頻度分布を示しています。

手紙	アラビア語における相対頻度
ء	0.31%
ؤ	0.09%
ئ	0.28%
ا	12.50%
آ	0.15%
أ	2.89%
إ	1.00%
ب	4.67%
ة	1.42%
タ	2.61%
ث	0.87%
ج	1.23%
ح	1.86%
خ	0.79%
د	2.67%
ذ	0.96%
ر	4.20%
ز	0.52%
س	2.47%
ش	0.73%
ص	1.04%
ض	0.44%
ط	0.50%
ظ	0.18%
ع	4.01%
غ	0.33%
ف	2.84%
ق	2.69%
ك	2.04%
ل	12.07%
م	6.52%
ن	6.61%
ه	5.08%
و	5.80%
ى	1.29%
ي	6.36%

参考文献

^イブン・カスィール『イスマイル』（1300年頃）『始まりと終わり』（アラビア語）2011年1月23日閲覧。
^アルムバラクフリ、サフィユラフマン(2002)。封印された蜜（アラビア語）。ダルサラーム出版物。ISBN 978-1591440710. 2011年1月24日閲覧。
^アッシュ・シュリ、マジディ（1900年頃）。『花嫁の傑作』（アラビア語）。 2011年1月24日閲覧。

外部リンク

[1] イブン・カスィール『イスマイル』（1300年頃）『始まりと終わり』（アラビア語）2011年1月23日閲覧。

[2] アルムバラクフリ、サフィユラフマン(2002)。封印された蜜（アラビア語）。ダルサラーム出版物。ISBN 978-1591440710. 2011年1月24日閲覧。

[3] アッシュ・シュリ、マジディ（1900年頃）。『花嫁の傑作』（アラビア語）。 2011年1月24日閲覧。

[ 1 ]

[ 2 ]

3