書き言葉において、表語文字(古代ギリシャ語のlogos「言葉」とgramma「描かれたもの、書かれたもの」に由来)、あるいは表語グラフや辞書文字は、単語や形態素など、言語の意味的構成要素を表す書き言葉である。中国語やその他の言語で使われる漢字は表語文字であり、エジプトの象形文字や楔形文字もそうだ。表語文字を主として使用する書記体系は表語法と呼ばれる。アルファベットや音節文字などの非表語文字書記体系は音素である。つまり、個々の記号は音を直接表し、固有の意味を持たない。しかし、既知の表語文字はすべて、一般に判じ絵の原理に基づく何らかの表音的構成要素を持っており、純粋な表意文字に表音的構成要素を追加したことは、書記体系が人間の言語を適切に符号化できるようにするための重要な革新であると考えられている。
記録に残る最も古い文字体系のいくつかは表意文字であり、メソポタミア、エジプト、中国、メソアメリカといった歴史上最初の文明はすべて何らかの形の表意文字を使用していた。[ 1 ] [ 2 ]
自然言語にこれまで使用されたすべての表語文字は、判じ絵の原理に依存して、比較的限られた表語文字のセットを拡張しています。文字のサブセットは、子音または音節のいずれかの表音値に使用されます。表語音節文字という用語は、音声領域が音節である場合に、これらの文字が部分的に音声的であることを強調するために使用されます。古代エジプトの象形文字、チョルティ、および中国語では、決定詞がさらに発達しており、表語文字と組み合わせて意味を絞り込むことができます。中国語では、決定詞は音声的に使用される表語要素と融合されており、このような「部首と表音」の文字が文字の大部分を構成しています。古代エジプトと中国では、判じ絵の積極的な使用は、外国語と方言の単語の綴りに限定されていました。
子音文字には、母音を無視して、表す単語の子音に応じて音声的に拡張できる書記素があります。例えば、エジプト語
|
sȝ「アヒル」とsȝ 「息子」の両方の表記に用いられたが、子音を除いてこれらの単語の発音は異なっていた可能性が高い。ロゴ子音文字の主な例としては、エジプトのヒエログリフ、ヒエラティック、デモティックが挙げられる。古代エジプト。
形質音節文字(または形態音節文字)は、形態素(多くの場合は多音節形態素)を表すグラフィムを持つが、音声的に拡張すると単音節を表す。楔形文字、アナトリア象形文字、クレタ象形文字、線文字Aと線文字B、漢字、マヤ文字、アステカ文字、ミシュテカ文字、そしてバムム文字の最初の5つの段階が含まれる。
ササン朝時代の大部分において、中期ペルシア語の表記には、アラム語のアブジャドから発展したパフラヴィー文字の中に発達した独特の表意文字体系が用いられた。この表意文字は、アラム語で単語を綴る文字で構成されていたが、発音はペルシア語と同じであった(例えば、mlkという組み合わせは「シャー」と発音される)。これらの表意文字はホズワーリシュン(異文字の一種)と呼ばれ、アラブ人がペルシアを征服し、アラビア文字の異形が採用された後、完全に廃止された。
歴史的に存在した表語文字体系はすべて音声的な側面を含んでいます。これは、言語のあらゆる単語や形態素に別々の基本文字を割り当てることは現実的ではないためです。[ a ]アッカド語に使用されていた楔形文字のように、グリフの大部分は表語的ではなく、音価に基づいて使用される場合もあります。多くの表語文字体系には、エジプト語では「限定詞」、中国語では「部首」と呼ばれる、意味的/表意的な要素(表意文字を参照)も含まれています。[ b ]
エジプトでは、発音の異なる複数の単語を表す可能性のある表語文字に、意味を絞り込むための限定詞と、発音を特定するための音素要素を追加するのが典型的な用法でした。中国語の場合、ほとんどの文字は、名詞の範疇を示す部首と、発音の見当をつけるための音素要素の固定された組み合わせで構成されています。マヤの表語文字体系では、エジプト語と同様に音素要素を含む表語文字が使用されていましたが、表意文字要素は含まれていませんでした。
すべての表語文字が特定の言語に関連付けられているわけではなく、全くどの言語にも関連付けられていないものもあります。アンパサンドはラテン文字の表語文字であり、[ 3 ]文字「e」と「t」の組み合わせです。ラテン語で「et」は「and」と翻訳され、アンパサンドは今日でもこの単語を表すために使用されていますが、英語、スペイン語、オランダ語の話者にとってはそれぞれ「and」、「y」、「en」といった形態素を表すため、様々な言語で使用されています。
あらゆる文字体系の外側には、様々な意味を持つ文字の集合体であるUnicodeがあります。Unicodeは、あらゆる言語のあらゆる文字を網羅する標準規格を構築するという意向を表明しています。 [ 4 ] Unicodeはコンピュータ文字エンコーディングの一般的な標準ですが、ASCIIやBaudotなど、デジタル通信において様々な用途で使用されている他の規格も存在します。これらのデータベースに含まれる多くの表語文字は広く普及しており、世界中のインターネットユーザーによって使用されています。
中国の学者は伝統的に、語源に基づいて漢字を6つの種類に分類してきました。
最初の2つのタイプは「単体」であり、これは他の文字とは独立して作成された文字を意味します。「単体」の象形文字と表意文字は、中国語の表語文字のごく一部を占めるに過ぎません。中国語の文字体系においてより生産的だったのは、2つの「複合」方式、つまり異なる文字を組み合わせて文字を作成する方法でした。「複合」と呼ばれていますが、これらの表語文字は依然として単一の文字であり、他の表語文字と同じスペースを占めるように書かれています。最後の2つのタイプは、文字自体の構成ではなく、文字の使用方法に関するものです。

最も生産的な中国語表記法である部首音韻法は、音節の音声体系における特定の区別を無視することによって可能になった。上代中国語では、語尾の後の子音/s/と/ʔ/は典型的に無視されていた。これらは中代中国語で声調に発達し、これも新しい文字が作られるときに同様に無視された。また、有気音の違い (有気阻害音と無気阻害音、有声共鳴音と無声共鳴音)、上代中国語の A 型音節と B 型音節の違い (口蓋化や咽頭化の有無としてよく説明される)、および場合によっては語頭阻害音の有声化および/または語頭子音の後の中間音/r/の存在も無視されていた。以前は、一般に音声の自由度がより高かった。中期中国では、新しく作られた文字は、声調を除いて発音と完全に一致する傾向があり、多くの場合、それ自体が部首音韻複合である文字を音声要素として使用しました。
言語進化の長い期間のため、部首音韻複合語によって提供される文字内の構成要素の「ヒント」は、現代の用法では役に立たず、誤解を招く可能性があります。例えば、標準中国語でměiと発音される「每」'each'(それぞれ)に基づくと、中国語ではそれぞれwǔ、huǐ、hǎiと発音される「侮辱する」、「悔う」、 「海」という文字があります。これらの文字のうち3つは、ウィリアム・H・バクスターとローラン・サガートによる最近の再構成によると、古代中国語では/mˤəʔ/ (每)、/m̥ˤəʔ/ (悔)、/m̥ˤəʔ/ (海)と非常によく似た発音でしたが、その後の約3000年間の音の変化(最後の2つの文字の場合は2つの異なる方言の発達を含む)により、根本的に異なる発音になりました。
中国語の文脈では、漢字(hanziとして知られる)は、大抵の場合、純粋な概念ではなく単語や形態素を表します。しかし、日本語と韓国語(それぞれkanjiとhanjaとして知られる)が漢字を採用したことにより、この図は多少複雑になっています。
中国語の形態素からなる多くの中国語単語は、その文字表記とともに日本語や韓国語に借用された。この場合、形態素と文字が一緒に借用された。一方、意味のみに基づいて、日本語や韓国語固有の形態素を表すために文字が借用されたケースもあった。その結果、一つの文字が、複数の言語において類似した意味を持ちながらも起源が異なる複数の形態素を表すこととなる場合がある。このため、漢字は形態素表記体系と呼ばれることもある。[ 7 ]
言語処理に関する研究の多くは英語やその他のアルファベット表記言語に集中しているため、言語処理理論の多くは音声生成における音韻論の役割を強調してきた。単一の文字が音声的および表意的に表される表語文字符号化言語と、音声的/音韻的に綴られる言語とを対比させることで、異なる言語がどのように異なる処理メカニズムに依存しているかについての洞察が得られた。表語文字符号化言語の処理に関する研究は、とりわけ処理における神経生物学的差異に着目しており、特に興味深い領域の一つは大脳半球の側方化である。表語文字符号化言語はアルファベット表記言語よりも画像と密接に関連しているため、多くの研究者は、表語文字符号化言語では右側の活性化がより顕著であるはずだという仮説を立てている。この仮説と一致する結果が得られた研究もあるが、正書法言語と音声言語における大脳半球の側方化の役割について最終的な結論を出すには、あまりにも対照的な結果が多すぎる。[ 8 ]
注目されているもう一つのトピックは、同音異義語の処理における違いである。Verdonschotら[ 9 ]は、同音異義語の文字の前に、関連のある絵または関連のない絵が提示された場合に、その文字を声に出して読むのにかかる時間の違いを調べた。 [ 10 ]日本語と中国語の両方の同音異義語が調べられた。アルファベット順にコード化された言語(英語など)の語生成は文脈刺激の影響を比較的受けにくいことが示されているのに対し、[ 11 ] Verdschotら[ 12 ]は、日本語の同音異義語がこれらのタイプの影響に特に敏感であるように見えることを発見した。具体的には、参加者が対象の文字を声に出して読むように求められる前に音韻的に関連する絵が提示された場合、反応時間が短くなった。この研究における音韻的に関連した刺激の例としては、参加者が日本語で「造」と発音される象の絵を見せられた後、同じく「造」と読む中国語の文字を見せられた場合が挙げられます。音韻的に関連した文脈上の絵が、中国語の単語を読む反応時間に与える影響は見つかりませんでした。(部分的に)表語文字でコード化された言語である日本語と中国語の比較は興味深いものです。なぜなら、日本語は60%以上が同音異義語(2通り以上の読み方ができる文字)で構成されているのに対し、中国語の文字のほとんどは1つの読み方しかないからです。どちらの言語も表語文字でコード化されているため、文脈効果による日本語と中国語の音読の潜時の差は、表記体系の表語文字の性質によるものとは考えられません。著者らは、この潜時の違いは日本語における追加の処理コストによるものだと仮説を立てている。日本語では、読者は正書法から音韻論への直接的な経路だけに頼ることができず、正しい発音を選択するためには語彙・統語レベルの情報にもアクセスする必要がある。この仮説は、文字理解力が低下した日本人アルツハイマー病患者が、特に困難なく単語を声に出して読むことができたという研究結果によって裏付けられている。[ 13 ] [ 14 ]
英語と中国語の同音異義語の語彙決定課題における処理を比較した研究では、中国語では同音異義語の処理に利点があり、英語では同音異義語の処理に欠点があることがわかっています。[ 15 ]英語における処理上の欠点は、通常、英語には同音異義語が相対的に少ないという観点から説明されます。同音異義語に遭遇すると、まずその単語の音韻表現が活性化されます。しかし、これは曖昧な刺激であるため、刺激の曖昧性を解消し、正しい発音を選択する前に、綴り/語彙(「メンタルディクショナリ」)レベルでのマッチングが必要です。対照的に、同じ読みの文字が多数存在する言語(中国語など)では、その文字を読む人は同音異義語に馴染みがあり、この馴染み深さが文字の処理とそれに続く正しい発音の選択を助け、刺激に注意を向ける際の反応時間を短縮すると考えられています。同音異義語が処理に与える影響をより深く理解するために、Hinoらは、同音異義語が処理に与える影響について研究を行いました。[ 11 ] は、日本語を対象言語として一連の実験を行った。親密度をコントロールした結果、日本語では同音異義語が非同音異義語よりも処理上の利点があることがわかった。これは、中国語で以前に発見されたものと同様である。研究者らはまた、英語の同音異義語の場合のように、綴りが似ている同音異義語が処理において不利になるかどうかもテストしたが、[ 16 ]その証拠は見つからなかった。表語文字コード化言語とアルファベットコード化言語では同音異義語の処理方法に違いがあることは明らかだが、表語文字コード化言語である日本語と中国語(すなわちその表記体系)における同音異義語の処理上の利点が、文字の表語性によるものなのか、それとも文字の性質とは無関係に同音異義語が多い言語の利点を反映しているだけなのかは、まだ明らかではない。
表語文字と他の表記体系の主な違いは、書記素が発音と直接結びついていないことです。この分離の利点は、書き手の発音や言語を理解する必要がないことです。例えば、 「1」は、読者が「ワン」と呼ぼうが、「イチ」と呼ぼうが、「ワヒド」と呼ぼうが理解されます。同様に、異なる中国語を話す人々は、話すときはお互いに理解できないかもしれませんが、たとえ標準中国語で書かなくても、書くときはかなりの程度理解できる可能性があります。そのため、近代以前の中国、ベトナム、韓国、日本では、東アジアの国際貿易と外交において、古典中国語を用いた筆談によるコミュニケーションが一般的でした。
しかしながら、この分離には、読み書きを学ぶ際に、発音とは別に表語文字を暗記しなければならないという大きな欠点もあります。表語文字本来の特徴ではなく、その独特な発展の歴史によるものですが、日本語ではほぼすべての表語文字が複数の発音を持つという複雑さが加わります。逆に、表音文字セットは話されている通りに正確に書きますが、わずかな発音の違いが曖昧さを生み出すという欠点があります。ギリシャ語、ラテン語、イタリア語、スペイン語、フィンランド語などの多くのアルファベット体系では、文字と音をほぼ1対1の関係に保ちながら単語の書き方を標準化するという実際的な妥協がなされています。英語、フランス語、タイ語、チベット語など、他の言語の正書法はそれよりも複雑で、文字の組み合わせは多くの場合、その歴史に応じて複数の方法で発音されます。韓国語の表記体系であるハングルは、識字率を向上させるために表語文字の漢字に取って代わるように設計されたアルファベット文字の例です。後者は現在ではほとんど使用されていないが、韓国ではハングルと組み合わせて使用されることもあり、ある程度は使用されている。
政府の委託を受けた調査によると、中華人民共和国の『現代中国語常用字表』(现代汉语常用字表)に掲載されている最もよく使われる3,500字は、200万語のサンプルの99.48%をカバーする。繁体字については、中華民国教育部の『常用國字標準字體表』(常用國字標準字體表)に4,808字、香港教育労働局の『常用漢字書記素表』(常用字字形表)に4,759字が掲載されており、いずれも初等教育および中等教育で教えることを目的としている。小学校以降の教育では、新しい文字よりも新しい単語のほうが多く扱われ、新しい単語のほとんどは既に学習した2つ以上の文字の組み合わせです。[ 17 ]
電子機器では、入力キーの数に実質的な制限があるため、複雑な文字を入力するのは面倒です。表語文字を入力するには、様々な入力方法があります。例えば、中国語の倉頡式や五筆法のように表語文字を構成要素に分割する方法や、ボポモフォやピンインなどの音声システム(単語を発音通りに入力し、それに対応する表語文字のリストから選択する方法)を使用する方法です。前者の方法は(直線的に)高速ですが、習得が困難です。一方、中国語のアルファベットシステムでは、表語文字を構成するストロークを通常の書き方通りに入力し、対応する表語文字を入力します。
また、グリフの数が多いため、プログラミングやコンピューティング全般では、文字セットが大きくなるにつれて、各書記素を格納するために多くのメモリが必要になります。比較すると、ISO 8859では各書記素に1バイトしか必要としませんが、 UTF-8でエンコードされた基本多言語面では最大 3 バイトが必要です。一方、たとえば英語の単語は平均して 1 単語あたり 5 文字と 1 つのスペース[ 18 ]であるため、単語ごとに 6 バイトが必要です。多くの表語文字には複数の書記素が含まれているため、どちらがよりメモリ効率が良いかは明らかではありません。可変幅エンコーディングにより、 Unicodeなどの統一文字エンコード規格では、文字を表すために必要なバイトのみを使用できるため、大きな文字セットを小さな文字セットと結合することによって生じるオーバーヘッドが削減されます。