テキスト内の文字の頻度は、暗号解読、特に頻度分析に使用するために研究されてきました。
どの言語にも正確な文字頻度分布はありません。なぜなら、書き手によって書き方が少しずつ異なるからです。原則として、アラビア文字を使用する異なる言語(アラビア語、クルド語、マレー語、ペルシア語、ウルドゥー語など)のテキストでは、文字頻度が異なります。これは、一部の言語でのみ使用される文字(例えば、標準アラビア語には含まれないڤ、پ、چ、گ、ڨなど)の場合に最も顕著です。
最も頻繁に使用される文字を最短の記号でエンコードする方法は電信コードで開拓され、ハフマン符号化などの現代のデータ圧縮技術で使用されています。
アラビア語のアルファベットは28個の基本文字で構成されており、これらは表1の1番目から28番目の文字に相当します。同じ表の29番目から36番目に記載されている8個の修正文字も、同じように使用されます。これらの8個の修正形を、形状や音韻の類似性に基づいて基本リストに組み込むと、表2のようになります。正確な頻度分析を行うため、表1の36個の文字はそれぞれ独立して頻度をカウントします。
表に示されているアルファベットの順序は、Unicode標準で使用されている順序よりも論理的です。




図 1 に示すように、アラビア文字の完全なセットには約 10 個の分音記号が含まれていますが、アラビア文字の頻度分析は、表 2 に示すアルファベット文字の頻度の計算のみに関係します。
頻度統計を行うために許容できる量のデータを生成するために、次のアラビア語ソースが使用されます。
これらの資料を合計すると、ページ数は 3,378 ページ、語数は 1,297,259 語、文字数は 5,122,132 文字になります。
次のグラフは、カウントされた文字の文字頻度分布を示しています。
| 手紙 | アラビア語における相対頻度 | |
|---|---|---|
| ء | 0.31% | |
| ؤ | 0.09% | |
| ئ | 0.28% | |
| ا | 12.50% | |
| آ | 0.15% | |
| أ | 2.89% | |
| إ | 1.00% | |
| ب | 4.67% | |
| ة | 1.42% | |
| タ | 2.61% | |
| ث | 0.87% | |
| ج | 1.23% | |
| ح | 1.86% | |
| خ | 0.79% | |
| د | 2.67% | |
| ذ | 0.96% | |
| ر | 4.20% | |
| ز | 0.52% | |
| س | 2.47% | |
| ش | 0.73% | |
| ص | 1.04% | |
| ض | 0.44% | |
| ط | 0.50% | |
| ظ | 0.18% | |
| ع | 4.01% | |
| غ | 0.33% | |
| ف | 2.84% | |
| ق | 2.69% | |
| ك | 2.04% | |
| ل | 12.07% | |
| م | 6.52% | |
| ن | 6.61% | |
| ه | 5.08% | |
| و | 5.80% | |
| ى | 1.29% | |
| ي | 6.36% | |