2011年、リビアに関する和平会議のため、パリのエリゼ宮 にある特定の国の国旗(主催国フランス以外)はフランス語のアルファベット順に並べられている: Allemagne 、Belgique 、Canada 、Danemark 、Émirats Arabes Unis 、Espagne 、États-Unis 、Grece 、Irak 、Italie 、ジョルダニー 、マロック 、ノルヴェージュ 、ペイバ 、ポローニュ 、カタール 、ロワイヤムユニ 。アルファベット順は、 文字列を アルファベット の特定の順序における文字の位置に基づいて並べるシステムです。これは照合 方法の一つです。数学 において、辞書式順序 とは、アルファベット順を他のデータ型、例えば数列やその他の順序付けられた数学的オブジェクトに一般化した ものです 。
アルファベット文字に加えて、数字や数値、またはより複雑なタイプの要素を含む可能性のある文字列またはシーケンスに適用される場合、アルファベット順は一般に 辞書式順序 と呼ばれます。
2つの文字列をアルファベット順に並べる際に、どちらが先に来るかを判断するために、最初の文字 を比較します。最初の文字と最初の文字が異なる場合、アルファベット順で最初の文字が先に来る文字列が、もう一方の文字列よりも先に来ます。最初の文字が同じ場合、2番目の文字を比較し、これを繰り返します。一方の文字列には比較する文字がなくなり、もう一方の文字列には比較する文字がある場合、短い方の文字列がアルファベット順で先に来るとみなされます。
大文字は、 アルファベット順の順序付けにおいて、通常、対応する小文字と同一とみなされます。ただし、2つの文字列が大文字のみで異なる場合も、処理するための規則が採用される場合があります。また、スペース、 分音記号 などの修飾文字、句読点 などの非文字を含む文字列の扱いについても、様々な規則が存在します。
単語や文字列をアルファベット順に並べると、同じ文字で始まる文字列はすべて同じグループにまとめられ、そのグループ内で同じ2文字の並びで始まる単語もすべて同じグループにまとめられ、といった具合になります。このように、システムは隣接する単語間で共通する最初の文字の数を最大化しようとします。
歴史 アルファベットの文字の順序は、紀元前14世紀、シリア 北岸のウガリットの町で確認されています。 [ 1 ] そこで発見された粘土板には1000以上の楔形文字が刻まれていますが、これらの文字はバビロニアのものではなく、30種類の文字しかありません。粘土板のうち約12枚には、文字がアルファベット順に並べられています。2つの順序が発見されており、1つはヘブライ語 、ギリシア語 、ラテン語に使われている順序とほぼ同じで、もう1つは ゲエズ語 に使われている順序と非常によく似ています。[ 2 ]
原シナイ文字の 文字数とその順序は不明です。その子孫であるウガリット文字は 27の子音、南アラビア文字は 29の子音、フェニキア文字は 22の子音で構成されていました。これらの文字は、フェニキア文字ではABGDE順、南アラビア文字では HLĦMQ 順という2つの順序で配列されていましたが、ウガリット文字は両方の順序を維持していました。どちらの順序も、これらの文字の子孫において驚くほど安定していました。
単語に適用されたアルファベット順は、紀元前 1千年紀に北西セム語族の筆写者によってアブジャド 方式で初めて使用されました。[ 3 ] しかし、地理順、年代順 、階層順、 カテゴリ順 など、資料を分類および整理する他のさまざまな方法が、何世紀にもわたってアルファベット順よりも好まれていました。[ 4 ]
聖書 の一部は紀元前7世紀から6世紀にかけてのものとされています。エレミヤ書 では、預言者はアルファベット順に基づいたアトバシュ 換字暗号 を用いています。同様に、聖書の著者たちは(順序付けられた)ヘブライ語アルファベットに基づいた 頭韻詩 を用いていました。[ 5 ]
学者の間でアルファベット順が目録作成手段として初めて効果的に使用されたのは、古代アレクサンドリアのアレクサンドリア大図書館 [ 6 ] であったと考えられています。この図書館は紀元前300年頃に設立されました。そこで働いていた詩人で学者のカリマコスは、 ピナケス として知られる世界初の図書館目録を 作成したと考えられています。ピナケスには、著者名の頭文字のアルファベット順に巻物が並べられていました。[ 4 ]
紀元前1世紀、ローマの作家ウァロは 著者とタイトルのアルファベット順リストを編纂した。[ 7 ] 紀元2世紀、セクストゥス・ポンペイウス・フェスタスは、 ウェルリウス・ フラックスの著作をアルファベット順にまとめた百科事典『 言葉の意味 について』を著した。[ 8 ] 紀元3世紀、ハルポクラチオンは ホメーロスの 辞典をアルファベット順に著した。[ 9 ]
10世紀には、ギリシャ語(スーダ )、アラビア語(イブン・ファリス の『アル・ムジュマル・フィー・アル・ルガ』 )、聖書ヘブライ語 (メナヘム・ベン・サルク の『マハベレット』)の主要なアルファベット辞典が出版された。11世紀のイタリアでは、ラテン語( パピアス の『エレメンタリウム 』)とタルムード・アラム語 (ナタン・ベン・ジェヒエル の『アルーク 』)の著作が出版され、参照を容易にするアルファベット順の辞典が盛んに出版された。[ a ]
12 世紀後半、キリスト教の説教者は、 聖書の 語彙を分析するためにアルファベット順のツールを採用しました。これがきっかけで、13 世紀にパリ のドミニコ会の修道士たちが、 ユーグ・ド・サン・シェールの もとで、聖書のアルファベット順コンコーダンス を編纂するようになりました。聖ヒエロニムス の『ヘブライ語名の解釈』 などの古い参考書は、参照しやすいようにアルファベット順に並べられました。アルファベット順の使用は当初、学生が研究分野をその独自の合理的な構造にしたがって習得することを期待していた学者から抵抗されました。その成功は、ロバート・キルワードビーの 聖アウグスティヌス 作品索引などのツールによって推進されました。この索引は、読者が 12 世紀のスコラ哲学 で顕著になった抜粋 の編集に頼るのではなく、完全な原文にアクセスするのを助けました。アルファベット順の採用は、記憶 の優位性から書き物の優位性への移行の一部でした。[ 10 ] 情報をアルファベット順に並べるという考えは、12世紀と13世紀の百科事典編纂者たちからも抵抗を受けた。彼らは皆、敬虔な教会員であった。彼らは情報を神学的に、つまり 「デウス」 (神を意味する)から始まる神の創造の順序に従って整理することを好んだ。[ 4 ]
1604年、ロバート・カウドリーは 、世界初の単一言語 英語辞書である 表アルファベット 順で、「もしあなたが探したい単語が(a)で始まっているなら、この表の最初を見てください。しかし、(v)で始まっているなら、最後の方を見てください」と説明しなければなりませんでした。[ 11 ] 1803年にはサミュエル・テイラー・コールリッジが 「頭文字の偶然によって決まる配列」を持つ百科事典を非難していましたが、[ 12 ] 今日では多くのリストがこの原則に基づいています。
ラテン文字での順序
基本的な順序と例 現代のISO 基本ラテンアルファベット の標準的な順序は次のとおりです。
ABCDEFGHIJKLMNOPQRSTU-VWXYZ 簡単なアルファベット順の例を次に示します。
As; アスター; アストロラーベ; 天文学; 天体物理学; At; アタマン; 攻撃; Baa 別の例:
フジツボ; である; されていた; 利益; 曲がった 上記の単語はアルファベット順に並べられています。As は Aster の前に来ます。これは、同じ 2 つの文字で始まり、As に はその後に文字がないのに対し、Aster には文字があるからです。次の 3 つの単語は、4 番目の文字 (最初に異なる文字) がr で、アルファベットではe ( Aster の 4 番目の文字) の後にあるため、 Aster の 後に来ます。これらの単語自体は、6 番目の文字 (それぞれl 、n 、p ) に基づいて並べられています。次にAt が 来ますが、これは前の単語とは 2 番目の文字が異なります ( t が s の後にあります)。Ataman が At の後に来るのは、 Aster が As の 後に来たのと同じ理由です。Attackは 3 番目の文字の比較に基づいてAtaman の 後に来ます。Baaは 、最初の文字が異なるため、他のすべての後に来ます。
複数単語の文字列の処理 順序付け対象となる文字列の一部が複数の単語で構成されている場合、つまりスペースや ハイフン などの区切り文字が含まれている場合、2つの基本的なアプローチが考えられます。最初のアプローチでは、すべての文字列はまず最初の単語に基づいて順序付けされます。これは次のシーケンスのようになります。
オーク、オークヒル、オークリッジ、オークリーパーク、オークリー川 ここで、 Oak という別の単語で始まるすべての文字列は、 Oakley で始まるすべての文字列よりも前になります。これは、アルファベット順でOakが Oakley よりも前になるからです。2番目のアプローチでは、文字列はスペースやハイフンがないかのようにアルファベット順に並べられ、[ b ] 次のようなシーケンスになります。
オーク、オークヒル、オークリーパーク、オークリー川、オークリッジ ここで、Oak Ridge は、 Oakley 文字列の後に続くようになり、これは「Oakridge」と書かれた場合と同じになります。 2 番目のアプローチは辞書でよく採用されているもので、出版社 では辞書順 と呼ばれることが多い。[ c ] 最初のアプローチは書籍索引 でよく使用されているが、各出版社は伝統的にどのアプローチを使用するかについて独自の基準を設けており、1975 年より前には書籍索引の ISO 標準 ( ISO 999 ) は存在しなかった。
特殊なケース
修正された文字 フランス語では、アルファベット順の順序付けにおいて、修飾文字(例えば、発音区別符号 付きの文字)は基本文字と同じように扱われます。例えば、rôle は rock とrose の間にあり、 role と表記されているように見えます。しかし、このような文字を体系的に使用する言語では、一般的に独自の順序付け規則があります。以下の§ 言語固有の規則 を 参照してください。
姓による並び替え 姓 が名 の後に記される文化圏の多くでは、依然として(電話帳のように)名前のリストを姓で最初に並べることが望まれます。この場合、正しく並べるためには名前の順序を変更する必要があります。例えば、Juan HernandesとBrian O'Learyは、実際にはこのように書かれていなくても、「Hernandes, Juan」と「O'Leary, Brian」と並べるべきです。この規則をコンピュータ照合アルゴリズムに組み込むのは複雑で、単純な試みは失敗します。例えば、アルゴリズムが広範な姓のリストを利用できなければ、「Gillian Lucille van der Waal」が「van der Waal, Gillian Lucille」なのか、「Waal, Gillian Lucille van der」なのか、あるいは「Lucille van der Waal, Gillian」なのかを判断する方法はありません。
学術的な文脈では、姓による順序付けが頻繁に見られる。複数の著者による単一の論文において、著者を逆順や論文への主観的な貢献度といった他の方法ではなく、姓のアルファベット順に並べることは、「同様の貢献を認める」あるいは「共同研究グループ内の不和を避ける」方法とみなされている。[ 13 ] 参考文献の引用文献を 著者の姓で並べるという特定の分野の慣習は、アルファベットの上位に現れる姓を持つ著者に有利なバイアスを生み出すことが分かっているが、参考文献が年代順に並べられている分野では、この効果は見られない。[ 14 ]
および その他の一般的な単語フレーズが非常に一般的な単語(文法では冠詞 と呼ばれる「the」、「a」、「an」など)で始まる場合、その単語は無視されるかフレーズの末尾に移動されることがあります。しかし、必ずしもそうとは限りません。例えば、「The Shining 」という書籍は「Shining」または「Shining, The」と扱われ、書籍タイトル「Summer of Sam 」の前に置かれる場合があります。しかし、単に「The Shining」として扱われ、「Summer of Sam」の後に置かれる場合もあります。同様に、「A Wrinkle in Time 」は「Wrinkle in Time」、「Wrinkle in Time, A」、「A Wrinkle in Time」と扱われる場合があります。これら3つのアルファベット順の方法はアルゴリズムによって簡単に作成できますが、多くのプログラムでは単純な辞書式順序 に依存しています。
Macの プレフィックスアイルランド語やスコットランド語の姓に使われる接頭辞「M」 と「Mc」は 「Mac」 の略称であり、綴りが「 Mac 」であるかのようにアルファベット順に並べられることがあります。例えば、「McKinley」は「 Mackintosh」 の前に記載されることがあります(「MacKinley」と綴った場合)。コンピュータによるソートリストの登場以降、このようなアルファベット順の表記は少なくなっていますが、イギリスの電話帳では今でも使用されています。
聖 接頭辞接頭辞「St 」または「St.」 は「Saint」の略語であり、伝統的に「Saint」 の綴りでアルファベット順に並べられます。例えば、地名辞典では「St John's」が 「Salem」 の前に記載されることがあります(「Saint John's」と綴った場合のように)。コンピュータによるソートリストの登場以降、このようなアルファベット順の表記は以前ほど見られなくなりましたが、今でも時々使用されています。
合字 英語のÆ とŒ のように、別個の文字とはみなされない合字(2つ以上の文字が1つの記号に結合されたもの)は、通常、文字が別個のものとして照合されます。つまり、「æther」と「aether」は、他のすべての単語に対して同じ順序になります。これは、 借用語 やブランド名 のように、合字が純粋に様式的なものではない場合にも当てはまります。
2 つの文字が合字で結合されているかどうかのみが異なる文字列をソートするには、特別なルールを採用する必要がある場合があります。
数字の扱い 文字列の一部に数字 (またはその他の文字以外の文字)が含まれている場合、様々なアプローチが可能です。場合によっては、そのような文字はアルファベットのすべての文字の前または後にあるかのように扱われます。別の方法としては、数字を綴りどおりにアルファベット順に並べ替える方法があります。例えば、1776は 「seventeen seventy-six」、24 heures du Mans は「vingt-quatre...」(フランス語で「二十四」)と綴られるかのように並べ替えられます。数字やその他の記号が文字の特殊なグラフィカル形式として使用されている場合(leet の1337 や映画「セブン」 ( Se7en として様式化されました)など)、それらはそれらの文字であるかのように並べ替えられます。自然ソート順で は、文字列はアルファベット順に並べ替えられますが、複数桁の数字は1つの文字として扱われ、その数字によってエンコードされた数値の値によって並べ替えられます。
君主 や教皇 の場合、その番号はローマ数字 で文字に似ていますが、通常は数字順に並べられています。そのため、たとえば、V は I の後ですが、デンマーク王のクリスチャン 9 世 は、その前任者であるクリスチャン 8 世 の後になります。
言語固有の規則 拡張ラテンアルファベット を使用する言語では、通常、追加文字の扱いについて独自の規則があります。また、一部の言語では、照合のために特定の二重音字 が単一の文字として扱われます。たとえば、スペイン語のアルファベットでは ñ を n に続く基本文字として扱い、以前は二重音字ch とll をそれぞれ c とl に続く基本文字として扱っていました。現在、ch とll は、2文字の組み合わせとしてアルファベット順に並べられます。新しいアルファベット順規則は、 1994年にスペイン王立アカデミー によって発行されました。これらの二重音字はまだ正式に文字として指定されていましたが、2010年以降はそうではなくなりました。一方、二重音字rrは予想どおり rqu の後にあり(1994年のアルファベット順規則以前もそうでした)、鋭アクセント付きの母音 ( á、é、í、ó、ú )は、文字ü と同様に、常に基本文字と並列に並べられてきました。
アラビア語 やキオワ語 など、アルファベットの順序が完全に入れ替わっているケースもいくつかあります。
さまざまな言語で適用されるアルファベット順の規則を以下に示します。
アラビア語 では、現在使用されている28 文字のアルファベット の順序は主に 2 つあります。標準的で最も一般的に使用されているのはヒジャーイー 順序で、これは初期のアラブ言語学者ナスル・イブン・アシム・アル・ライティー によって作成され、文字をその形状に基づいて並べる視覚的な順序付け方法を特徴としています。たとえば、bāʾ (ب)、tāʾ (ت)、thāʾ (ث) は同じ基本形状またはrasm (ٮ) を持つためグループ化され、 iʻjām と呼ばれる子音の指示によってのみ区別されます。元のアブジャディー 順序は音声的に他のセム語族 言語やラテン語の順序に似ており、現在でも使用されていますが、通常は文書内のリストの順序付けに限定されており、ローマ数字 に似ています。アブジャディー 順序が番号付けに使用される場合、文字は単語で使用される文字や数字と区別するために変更された形式で書き込まれます。例えば、アラビア数字の 1 (١)と見た目が全く同じアリフ (ا)は、文字の下部から時計回りに小さな楕円形の輪が伸び、その後ろに短い尾 (𞺀) が続きます。これらの文字はデジタルではほとんど使用されませんが、Unicodeではアラビア数学アルファベット記号 としてエンコードされています。[ 15 ] あまり一般的ではないサウティー 順は音声的に照合され、アル=ハリール・イブン・アフマド・アル=ファラヒディ によって作成されました。アゼルバイジャン語 では、標準ラテンアルファベットに 8 つの文字が追加されています。そのうち 5 つは母音で、i、ı、ö、ü、ə 、3 つは子音で、ç、ş、ğ です。アルファベットはトルコ語 と同じで、同じ音は同じ文字で書きますが、トルコ語にはない音を表す q、x、ə の 3 つの追加文字を除きます。すべての「トルコ語の文字」はトルコ語と同様に「通常の」アルファベット順に並べられていますが、追加の 3 つの文字は、その音が近い文字の後に任意に並べられています。つまり、q は k の直後、x (ドイツ語のch のように発音) は h の直後、ə (英語の短縮形の a とほぼ同じ発音) は e の直後に配置されます。ブルトン語 には「c」「q」「x」はありませんが、「ch」と「c'h」という二重音字があり、「b」と「d」の間にあります。例えば、「buzhugenn」「chug」「c'hoar」「daeraouenn」(ミミズ、ジュース、姉妹、涙滴)などです。チェコ語 とスロバキア語 では、アクセント付き母音は二次的な照合重みを持ちます。つまり、他の文字と比較して、アクセントのない形として扱われます (チェコ語では A-Á、E-É-Ě、I-Í、O-Ó、U-Ú-Ů、Y-Ý、スロバキア語では A-Á-Ä、E-É、I-Í、O-Ó-Ô、U-Ú、Y-Ý)。ただし、アクセントのない文字の後に並べられます (たとえば、正しい辞書式順序は、チェコ語では baa、baá、báa、báá、bab、báb、bac、bác、bač、báč、および baa、baá、báa、báá、báä、bäa、bäá、bää、bab、báb、bäb、bac、bác、bäc です)。アクセントの付いた子音は、第一照合重みを持ち、アクセントのない子音のすぐ後に照合されます。ただし、Ď、Ň、Ť(チェコ語)とĎ、Ĺ、Ľ、Ň、Ŕ、Ť(スロバキア語)は第二照合重みを持ちます。CHは 独立した文字とみなされ、H とI の間に配置されます。スロバキア語では、DZ とDŽも独立した文字とみなされ、 Ď とE の間に配置されます。デンマーク語とノルウェー語のアルファベット にも、スウェーデン語と同じ追加母音(下記参照)が存在します。ただし、順序とグリフ は異なります(...、X、Y、Z、Æ 、Ø 、Å )。また、「Aa」は「Å」と同義です。デンマーク語のアルファベットでは伝統的に「W」は「V」の異形とみなされていましたが、現在では「W」は独立した文字として扱われています。オランダ語 では、 IJ ( IJ を表す) の組み合わせは、以前は Y (または独立した文字として: Y < IJ < Z) と照合されていましたが、現在ではほとんどの場合 2 文字 (II < IJ < IK) として照合されています。例外は電話帳です。多くのオランダの姓では、現代の綴りでは IJ が必要なところで Y が使用されているため、ここでは IJ は常に Y と照合されます。大文字の I で書かれる ij で始まる単語は、大文字の J でも書かれることに注意してください。たとえば、IJmuidenという町、 IJssel という川、および IJsland (アイスランド )という国名です。エスペラント語 では、曲折 アクセント付きの子音( ĉ 、ĝ 、ĥ 、ĵ 、ŝ ) とŭ (二分音符 付きの u ) は別々の文字としてカウントされ、別々に照合されます (c、 ĉ、 d、 e、 f、 g、 ĝ、 h、 ĥ、 i、 j、 ĵ ... s、 ŝ、 t、 u、 ŭ、 v、 z)。エストニア語 では、õ 、ä 、ö 、ü は別々の文字とみなされ、w の後に並びます。š 、 z 、žは 借用語と外国の固有名詞にのみ現れ、エストニア語アルファベット では文字sの 後に並びますが、それ以外は基本的なラテンアルファベットと変わりません。フェロー語のアルファベットに は、デンマーク語、ノルウェー語、スウェーデン語の追加文字であるÆ とØ も含まれています。さらに、フェロー語のアルファベットで はアイスランド語のethが使用され、これはD に続きます。6つの母音のうち、 A 、I 、O 、U 、Y の5つはアクセントが付く可能性があり、アクセントが付くと別の文字として扱われます。子音のC 、Q 、X 、W 、Z は存在しません。したがって、最初の5文字はA 、Á 、B 、D 、Ð 、最後の5文字はV 、Y 、Ý 、Æ 、Øとなります。 フィリピン語 (タガログ語)およびその他のフィリピン諸語では、Ngという文字は独立した文字として扱われます。sing や ping-pong などのように発音されます。Ngは 単独 ではnang と発音されますが、一般的なフィリピン語の正書法 では、2つの別々の文字(nとg)として綴られます。また、派生文字(Ñ など)は基底文字の直後に続きます。フィリピン語にも分音記号が用いられますが、チルダを 除いて、その使用は非常にまれです。フィンランド語のアルファベット と照合規則はスウェーデン語のものと同じです。 フランス語 では、単語の最後のアクセントが順序を決定します。 [ 16 ] 例えば、フランス語では、次の4つの単語はcote < côte < coté < côtéの順に並べられます。eはe é è ê ë(œはoeとみなされます)の順に並べられ、oも同様にô öの順に並べられます。ドイツ 語では、ウムラウト 付きの文字(Ä 、Ö 、Ü )は、一般的にウムラウトなしの文字と同様に扱われます。ßは 常にssとして分類されます。これにより、アルファベット順はArbeit、Arg、Ärgerlich、Argument、Arm、Assistent、Aßlar、Assoziationとなります。電話帳などの名前リストでは、ウムラウトは「ae」、「oe」、「ue」の文字の組み合わせのように分類されます。これは、多くのドイツ人の姓がウムラウト付きとウムラウトなしの「e」(Müller/Mueller)の両方で表示されるためです。これにより、アルファベット順はUdet、Übelacker、Uell、Ülle、Ueve、Üxküll、Uffenbachとなります。ハンガリー語の 母音にはアクセント、ウムラウト、二重アクセントがあり、子音は一重アクセント、二重アクセント(二重音字)、または三重アクセント(三重音字)で表記されます。照合において、アクセント付き母音はアクセントなし母音と等価であり、二重アクセントと三重アクセントは元の一重アクセントに従います。ハンガリー語のアルファベット順は、A=Á、B、C、Cs、D、Dz、Dzs、E=É、F、G、Gy、H、I=Í、J、K、L、Ly、M、N、Ny、O=Ó、Ö=Ő、P、Q、R、S、Sz、T、Ty、U=Ú、Ü=Ű、V、W、X、Y、Z、Zsです。 (1984年以前は、dz とdzsは 照合において1文字ではなく、それぞれ2文字、つまりd+zとd+zsとみなされていました。)つまり、照合ではcが cs に先行するため、例えばnádcukorは nádcsomó に先行することになります( sは 通常u に先行しますが)。母音の長さの違いは、2つの単語がそれ以外は同一である場合にのみ考慮されます(例:egér、éger )。句内のスペースとハイフンは照合では無視されます。Chは 特定の単語では二重音字として出現しますが、照合においてはそれ自体が書記素とはみなされません。 ハンガリー語の照合順序の特徴として、二重二重音字および二重三重音字の短縮形(例えば、 gy + gy のggy やdzs + dzs のddzs など)は、短縮形であるという事実や二重音字または三重音字の要素とは無関係に、あたかも完全な形で書かれているかのように照合順序が決められる点が挙げられます。例えば、kaszinó は kassza の前に置かれるべきです(アルファベットでは4番目の文字z は通常 s の後に来ますが)。これは、 kassza という単語の4番目の「文字」(グラフィム )が2 番目のsz とみなされ(sszを sz + sz に分解)、これはkaszinó ではi の後に来るためです。 アイスランド語 では、Þ が追加され、Dの後にÐ が続きます。各母音(A、E、I、O、U、Y)の後には、対応するアキュート音(Á、É、Í、Ó、Ú、Ý)が続きます。Zはないので、アルファベットは…X、Y、Ý、 Þ 、Æ 、Ö で終わります。キオワ語は、歴史的なラテン語の順序ではなく、 ブラーフミー文字 のような音声原理に基づいて配列されています。母音が最初に来て、次に口の前から奥へ、そして声の立ち上がり が負から正へと順に、破擦音、摩擦音、流音、鼻音の順に続きます。A、AU、E、I、O、U、B、F、P、V、D、J、T、TH、G、C、K、Q、CH、X、S、Z、L、Y、W、H、M、N リトアニア語 では、特にリトアニア語の文字はラテン語の元の文字の後に続きます。もう一つの特徴は、Yが Jの 直前に来ることです。…G、H、I、Į、Y、J、K…マルタ語アルファベット では、二重音字GĦとIEはそれぞれ1文字として扱われ、ペアの最初の文字の後に並べられます。点付き文字(Ċ Ġ Ż)は元の文字の前に並べられ、ĦはHの後に置かれます。アクセント、アポストロフィ、ハイフンは無視されます。ただし、2つの単語の並び順が同一である場合、これらの発音区別符号は考慮され、アクセント付き文字はアクセントなし文字の後に並べられます。ポーランド語 では、ラテンアルファベット由来のポーランド文字は、元の文字の後に照合されます:A、Ą、B、C、Ć、D、E、Ę、…、L、Ł、M、N、Ń、O、Ó、P、…、S、Ś、T、…、Z、Ź、Ż。照合目的の二重音字は、2つの別々の文字として扱われます。ピンインのアルファベット順 では、単語はピンインの基本文字が同じで、修飾する発音区別符号のみが異なるため、修飾されない文字が修飾される文字の前に来ます。例えば、⟨e⟩は ⟨ê⟩ の前に来ます(額(è )は欸(ê̄ )の前に来ます)。また、⟨u⟩は ⟨ü⟩ の前に来ます(路(lù )は驢(lǘ )の前に来ます、努(nǔ )は女(nǚ )の前に来ます)。同じピンイン文字(変形字⟨ê⟩ と⟨ü⟩ を含む)を持つ文字は、声調に従って「第一声(すなわち「平調」)、第二声(上昇声)、第三声(下降上昇声)、第四声(下降声)、第五声(中性声)」の順に並べられます。例:「媽(mā )、麻(má )、馬(mǎ )、罵(mà )、嗎(ma )」。[ d ] ポルトガル語 では、照合順序は英語と同じです:A、B、C、D、E、F、G、H、I、J、K、L、M、N、O、P、Q、R、S、T、U、V、W、X、Y、Z。二重音字と分音記号付きの文字はアルファベットに含まれません。ルーマニア語 では、ラテンアルファベットから派生した特殊文字が、元の文字に従って照合されます: A、Ă、Â、...、I、Î、...、S、Ș、T、Ț、...、Z。セルビア・クロアチア 語およびその他の関連する南スラブ語では、5 つのアクセント付き文字と 3 つの結合文字は、元の文字に従って並べられています: ...、C、Č、Ć、D、DŽ、Đ、E、...、L、LJ、M、N、NJ、O、...、S、Š、T、...、Z、Ž。スペイン語で は(1994年まで)「CH」と「LL」を1文字として扱い、cinco 、credo 、chispa とlomo 、luz 、llama の順序としていました。 1994年にRAEが より慣例的な使用法を採用したため、これはもう当てはまりません。現在、LLはLKとLMの間に、CHはCGとCIの間に照合されます。分音記号付きの6つの文字Á、É、Í、Ó、Ú、Üは、元の文字A、E、I、O、Uとして扱われます。たとえば、radio 、ráfaga 、rana 、rápido 、rastrillo です。 スペイン語特有の照合に関する唯一の疑問は、Ñ (eñe )がNの後に照合される別の文字として扱われることです。スウェーデン語のアルファベット には、末尾に3つの追加母音(...、X、Y、Z、 Å 、Ä 、Ö )が配置されています。これはデンマーク語やノルウェー語のアルファベットに似ていますが、グリフと照合順序が異なります。文字「W」は「V」の異形として扱われてきましたが、スウェーデン・アカデミー・オルドリスト 第13版(2006年)では「W」は独立した文字とみなされました。トルコ語のアルファベット には、ç、ğ、ı、ö、ş、ü(ただしq、w、xは除く)の6つの追加文字があります。çはcの後、ğはgの後、ıはiの前 、öはoの後、şはsの後、üはuの後に配置されます。1928年にアルファベットが導入された当初は、ıはiの後に配置されていましたが、後に順序が変更され、点、セディーユ、その他の装飾記号を含む文字は、対応する裸の文字の後に配置されるようになりました。トルコ語の正書法では、文字Iは点のないıの太字であり、İは点のあるiの太字であることに注意してください。多くのテュルク系言語( アゼルバイジャン語 やタタール語の ジャアリフ 正書法など)には、かつてG とHの間に ガ (Ƣƣ)という文字がありました。現在では使われていません。 ベトナム語 には、ă 、â 、đ 、ê 、ô 、ơ 、ư の7つの追加文字があります。一方、 f 、j 、w 、z は、インターネットアドレスや外来語など、一部の言語ではまだ使用されていますが、存在しません。「f」は「ph」の組み合わせに置き換えられます。「w」と同様に「qu」です。ヴォラピュク語 ではä 、ö 、ü は別々の文字として数えられ、別々に照合されます(a、ä、b ... o、ö、p ... u、ü、v)。一方、q とw は存在しません。[ 17 ] ウェールズ 語では、二重音字CH、DD、FF、NG、LL、PH、RH、THはそれぞれ1文字として扱われ、ペアの最初の文字の後に並べられます(NGはGの後に並べられます)。これにより、A、B、C、CH、D、DD、E、F、FF、G、NG、H、…という順序になります。ただし、単語の複合によって、二重音字を形成しない 2つの文字が並置される場合もあります。例として、LLONGYFARCH(LLON + GYFARCH)という単語が挙げられます。この場合、例えばLAWR、LWCUS、LLONG、LLOM、LLONGYFARCH(LLONGではNGは二重音字ですが、LLONGYFARCHでは二重音字ではありません)のような順序になります。 R+H という文字の組み合わせ(二重音字 RH とは異なります)は、複合語において同様に並置されることがあります。ただし、誤認によって順序が変わるような文字の組み合わせは、通常は発生しません。他に起こりうる紛らわしい文字の組み合わせ、すなわち D+D や L+L については、綴りにハイフンを使用します(例:AD-DAL、CHWIL-LYS)。
オートメーション 照合アルゴリズム( ソートアルゴリズム と組み合わせて)は、コンピュータプログラミングにおいて文字列をアルファベット順に並べるために使用されます。標準的な例としては、Unicode照合アルゴリズムが挙げられます。これは、任意の Unicode シンボルを含む文字列をアルファベット順(の拡張)に並べるために使用できます。 [ 16 ] このアルゴリズムは、デフォルトの照合テーブルを調整することで、上記の言語固有の規則のほとんどに準拠させることができます。このような調整のいくつかは、共通ロケールデータリポジトリ に収集されています。
類似の順序 アルファベット順の原則は、厳密にはアルファベットを使用しない言語( 例えば、音節文字 やアブギダ を使用して記述される言語)でも、使用される記号に確立された順序がある限り適用できます。
中国の漢字 や日本の漢字などの 表意 文字では、部首と画数 による分類法が記号の順序付けによく用いられます。日本語では発音順が用いられることもあり、最も一般的なのは五十音 順ですが、より古い「 いろは順」が用いられることもあります。
数学において、辞書式順序 はアルファベット順の順序付けと同様に順序付けを行う手段である。[ 18 ]
一部のコンピュータアプリケーションでは、文字のASCIIコード またはUnicode コードのみに基づいた非常に単純なアルゴリズム で実現できるアルファベット順を使用しています。このアルゴリズムでは、大文字が小文字の前に配置されるなど、非標準的な結果が生じる場合があります。ASCII順を 参照してください。
押韻辞書は 、単語の最後の文字から最初の文字までアルファベット順に単語を分類することに基づいています。
参照
注記 ^ ナタンの『アルーフ』は 最初のアルファベット順タルムード辞典ではなかったかもしれないが、圧倒的な人気を博し、今日でも使用されている。その前身の一つとして、マキル・ベン・イェフダー の失われた『アルファ・ベータ』 が挙げられる。 ^ MS Explorer の場合、スペース、アポストロフィ (U+0027)、およびすべてのハイフンのような文字 (U+002D および U+2010 から U+2014 まで) は、主ソート キーから省略されます。 ^ たとえば、 Harrap の Shorter Dictionnaire Anglais-Français/ Français-Anglais 、ISBN 0-245-60660-2、640 ページには、 oil、oil-bearing、oilcan、oilcloth、oil-cooled、oiled […] oiliness、oil lamp、oil paint、oil painting、oilpaper という 順序になっています。 ^ 例外があります。ABC中英辞典 では、声調の順序は「零声(中性声調)、第一声(平声)、第二声(上昇声調)、第三声(下降上昇声調)、第四声(下降声調)」です。
参考文献 ^ ロビンソン、アンドリュー (2007) [1995]. 『ライティングの物語』 (第2版). ロンドン: テムズ・アンド・ハドソン. p. 162. ISBN 978-0-500-28660-9 。 ^ ミラード, AR (1986). 「アルファベットの幼少期」. 世界考古学 . 17 (3): 390– 398. doi : 10.1080/00438243.1986.9979978 . JSTOR 124703 . ^ Reinhard G. Lehmann: 「27-30-22-26. アルファベットには何文字必要か? セム語の場合」、Alex de Voogt と Joachim Friedrich Quack 編『 The idea of writing: Writing across borders 』、ライデン: Brill 2012、11–52 ページ。 ^ a b c Street, Julie (2020年6月10日). 「From A to Z - the surprise history of alphabetical order」 (テキストと音声) . ABCニュース(ABCラジオナショナル) . オーストラリア放送協会. 2020年7月2日時点のオリジナルより アーカイブ。 2020年 7月6日 閲覧 。 ^ 例えば、ヘブライ語聖書の詩篇25篇、34篇、37篇、111篇、112篇、119篇、145篇 ^ デイリー、ロイド.古代および中世におけるアルファベット化の歴史への貢献 . ブリュッセル、1967年、25頁。 ^ オハラ、ジェームズ (1989)。 「メッサプス、キクナス、そしてバージルのイタリア英雄カタログのアルファベット順」。 フェニックス 。 43 (1): 35–38 . 土井 : 10.2307/1088539 。 JSTOR 1088539 。 ^ LIVRE XI – texte latin – traduction + commentaires . 2012年6月9日時点のオリジナルより アーカイブ 。 2012年 5月8日 閲覧。 ^ ギブソン、クレイグ(2002年) 『古典の解釈:デモステネスと古代の注釈者たち 』 ^ ラウズ、メアリー・A.; ラウズ、リチャード・M. (1991)、「 Statim invenire :学校、説教者、そしてページに対する新しい態度」、 Authentic Witnesses:中世のテキストと写本へのアプローチ 、University of Notre Dame Press、pp. 201– 219、 ISBN 0-268-00622-9 ^ Cawdrey, Robert (1604). A Table Alphabeticall . London. p. [A4]v. ^ Coleridge's Letters, No.507 . 2011年7月13日時点のオリジナル よりアーカイブ 。 ^ Tscharntke, Teja; Hochberg, Michael E; Rand, Tatyana A; Resh, Vincent H; Krauss, Jochen (2007年1月). 「複数 著者 による出版物における著者順序と貢献のクレジット」 . PLOS Biol . 5 (1): e18. doi : 10.1371/journal.pbio.0050018 . PMC 1769438. PMID 17227141 . ^ Stevens, Jeffrey R.; Duque, Juan F. (2018). 「順序の重要性:文中引用のアルファベット順化は引用率にバイアスをもたらす」 ( PDF) . Psychonomic Bulletin & Review . 26 (3): 1020– 1026. doi : 10.3758/s13423-018-1532-8 . PMID 30288671. S2CID 52922399. 2018年11月10日時点のオリジナルより アーカイブ (PDF) . 2018年 11月10日 閲覧 。 ^ 「アラビア語の数学アルファベット記号」 (PDF) . THE Unicode Standard. 2022年10月30日時点のオリジナルより アーカイブ (PDF) . 2022年 11月26日 閲覧 。 ^ a b 「Unicode技術標準#10:Unicode照合アルゴリズム」 Unicode, Inc. (unicode.org). 2008年3月20日. 2008年8月27日時点のオリジナルより アーカイブ。 2008年 8月27日 閲覧 。 ^ Midgley, Ralph. 「Volapük to English dictionary」 (PDF) . 2012年9月1日時点の オリジナル (PDF) からアーカイブ。 2019年 9月24日 閲覧 。 ^ フランツ・バーダー、トビアス・ニプコウ (1999). 『用語の書き換えとそのすべて 』 ケンブリッジ大学出版局. pp. 18– 19. ISBN 978-0-521-77920-3 。
さらに読む