アラビア文字の頻度

テキスト内の文字の頻度は、暗号解読、特に頻度分析に使用するために研究されてきました。

どの言語にも正確な文字頻度分布はありません。なぜなら、書き手によって書き方が少しずつ異なるからです。原則として、アラビア文字を使用する異なる言語(アラビア語クルド語マレー語ペルシア語ウルドゥー語など)のテキストでは、文字頻度が異なります。これは、一部の言語でのみ使用される文字(例えば、標準アラビア語には含まれないڤپچگڨなど)の場合に最も顕著です。

最も頻繁に使用される文字を最短の記号でエンコードする方法は電信コードで開拓され、ハフマン符号化などの現代のデータ圧縮技術で使用されています。

アラビア文字

アラビア語のアルファベットは28個の基本文字で構成されており、これらは表1の1番目から28番目の文字に相当します。同じ表の29番目から36番目に記載されている8個の修正文字も、同じように使用されます。これらの8個の修正形を、形状や音韻の類似性に基づいて基本リストに組み込むと、表2のようになります。正確な頻度分析を行うため、表1の36個の文字はそれぞれ独立して頻度をカウントします。

表に示されているアルファベットの順序は、Unicode標準で使用されている順序よりも論理的です。

図 1:アラビア文字キーボード Intellarkを使用して入力できるアラビア文字。
表1:アラビア語のアルファベット。1から28までの文字が基本文字。29から36までの文字が変形文字。
表 2: 修正された文字を基本形式にまとめたアラビア語アルファベット。
カウントされた文字の文字頻度分布: 頻度でソートされたヒストグラム データ。

図 1 に示すように、アラビア文字の完全なセットには約 10 個の分音記号が含まれていますが、アラビア文字の頻度分析は、表 2 に示すアルファベット文字の頻度の計算のみに関係します。

一般的な情報源を用いたアラビア文字の頻度

頻度統計を行うために許容できる量のデータを生成するために、次のアラビア語ソースが使用されます。

  • イブン・カスィールのシリーズ「始まりと終わり[ 1 ]の最初の7巻で、2,855ページ、1,096,047語、4,326,031文字が含まれています。
  • アルムバラクフーリの『封印された蜜[ 2 ]の本は284ページ、134,662語、553,740文字で構成されています。
  • アル・シュリの『花嫁の傑作 [ 3 ]という本は239ページで、66,550語、242,361文字が含まれています。

これらの資料を合計すると、ページ数は 3,378 ページ、語数は 1,297,259 語、文字数は 5,122,132 文字になります。

次のグラフは、カウントされた文字の文字頻度分布を示しています。

手紙 アラビア語における相対頻度
ء0.31%
 
ؤ0.09%
 
ئ0.28%
 
ا12.50%
 
آ0.15%
 
أ2.89%
 
إ1.00%
 
ب4.67%
 
ة1.42%
 
2.61%
 
ث0.87%
 
ج1.23%
 
ح1.86%
 
خ0.79%
 
د2.67%
 
ذ0.96%
 
ر4.20%
 
ز0.52%
 
س2.47%
 
ش0.73%
 
ص1.04%
 
ض0.44%
 
ط0.50%
 
ظ0.18%
 
ع4.01%
 
غ0.33%
 
ف2.84%
 
ق2.69%
 
ك2.04%
 
ل12.07%
 
م6.52%
 
ن6.61%
 
ه5.08%
 
و5.80%
 
ى1.29%
 
ي6.36%
 

参考文献

  1. ^イブン・カスィール『イスマイル』(1300年頃)『始まりと終わり』(アラビア語)2011年1月23日閲覧
  2. ^アルムバラクフリ、サフィユラフマン(2002)。封印された蜜(アラビア語)。ダルサラーム出版物。ISBN 978-1591440710. 2011年1月24日閲覧
  3. ^アッシュ・シュリ、マジディ(1900年頃)。『花嫁の傑作』(アラビア語) 。 2011年1月24日閲覧