類推モデリング

類推モデリング（AM ）は、ユタ州プロボのブリガムヤング大学の言語学および英語学の教授であるロイヤル・スコウセンが提唱した、事例に基づく類推推論の形式理論です。言語モデリングやその他の分類タスクに適用できます。類推モデリングは、抽象化ベースではなくデータベースであるという点でコネクショニズムや最近傍アプローチに関連していますが、不完全なデータセット（シミュレートされた短期記憶の制限などによって生じるもの）に対処し、近いか遠いかに関係なくデータセットのすべての関連セグメントに基づいて予測を行う能力によって区別されます。言語モデリングにおいて、AM は理論的説明が知られていなかった経験的に有効な形式を予測することに成功しています（Skousen ら 2002 のフィンランド語形態論の議論を参照）。

実装

概要

見本ベースモデルは、汎用モデリングエンジンと問題固有のデータセットから構成されます。データセット内では、各見本（推論の対象となる事例、または有益な過去の経験）が特徴ベクトル（問題を定義するパラメータセットの値の行）として表示されます。例えば、スペルから音への変換タスクでは、特徴ベクトルは単語の文字で構成される場合があります。データセット内の各見本は、生成される音素や音韻などの結果とともに保存されます。モデルに新しい状況（結果のない特徴ベクトルの形式）が提示されると、エンジンはデータセットをアルゴリズム的にソートし、その状況によく似た見本を見つけ、その中からモデルの予測結果を結果とする見本を選択します。このアルゴリズムの詳細によって、各見本ベースモデリングシステムが区別されます。

AM では、特徴値はコンテキストを特徴付けるものであり、結果はそのコンテキスト内で発生する動作であると考えます。したがって、新しい状況は所与のコンテキストと呼ばれます。コンテキストの既知の特徴が与えられた場合、AM エンジンはそのコンテキストを含むすべてのコンテキスト (そのすべてのスーパーコンテキスト) を体系的に生成し、データセットから各コンテキストに属する例を抽出します。次に、エンジンは結果が矛盾するスーパーコンテキスト(この一貫性の尺度については後述) を破棄し、スーパーコンテキストの類似セットを残し、大きなスーパーコンテキスト内の例に偏って類似セットから例を確率的に選択します。このマルチレベル検索により、特定のコンテキストに具体的に類似する設定で動作が確実に発生するため、その動作が予測される可能性が指数関数的に高まります。

アナロジーモデリングの詳細

AMは、評価対象となる各ケースに対して同じプロセスを実行します。n個の変数からなる与えられたコンテキストは、テンプレートとして用いられ、スーパーコンテキストを生成します。各スーパーコンテキストは、1つ以上の変数が与えられたコンテキストと同じ値を持ち、他の変数は無視される、一群の事例です。実質的には、各スーパーコンテキストは、与えられたコンテキストとの類似性に関する何らかの基準でフィルタリングすることによって作成されたデータのビューであり、スーパーコンテキストの集合全体は、そのようなすべてのビューを網羅します。あるいは、各スーパーコンテキストは、タスクの理論、または予測力を評価する必要のある提案されたルールです。 $2^{n}$

重要なのは、スーパーコンテキストは互いに対等な関係にあるわけではないということです。スーパーコンテキストは、与えられたコンテキストからの距離によって階層構造を形成します。あるスーパーコンテキストが、別のスーパーコンテキストが定義する変数すべてとそれ以上の定義を行う場合、そのスーパーコンテキストは別のスーパーコンテキストのサブコンテキストとなり、与えられたコンテキストにより近い位置にあります。（階層構造は厳密には分岐しません。各スーパーコンテキストは、それ自体が複数の他のスーパーコンテキストのサブコンテキストとなることができ、また複数のサブコンテキストを持つこともできます。）この階層構造は、アルゴリズムの次のステップで重要になります。

エンジンは、スーパーコンテキストの中から類推セットを選択します。スーパーコンテキストには、1 つの動作のみを示す例が含まれる場合があります。これは決定論的に同質であるため、含められます。これは、規則性を示すデータのビュー、またはまだ反証されていない関連理論です。スーパーコンテキストは複数の動作を示す場合がありますが、より具体的なスーパーコンテキスト (つまり、そのサブコンテキストのいずれか) に発生する例が含まれていません。この場合は非決定論的に同質であるため、含められます。ここでは、体系的な動作が発生するという大きな証拠はありませんが、反論もありません。最後に、スーパーコンテキストは異質である可能性があり、これは、サブコンテキスト (特定のコンテキストに近い) で見つかる動作と、そうでない動作の両方を示すことを意味します。非決定論的に均質な上位文脈の曖昧な振る舞いが受け入れられたとしても、介在する下位文脈がより良い理論が存在することを示しているため、これは却下される。したがって、異質な上位文脈は排除される。これにより、与えられた文脈に近づくにつれて、類推集合において意味のある一貫性のある振る舞いが増加することが保証される。

類推集合が選択されると、各事例の出現（ある事例は複数の類推的上位文脈に出現する可能性がある）には、その上位文脈内における他のすべての事例の出現へのポインタが付与される。これらのポインタの1つがランダムに選択され、それに従うと、それが指し示す事例が結果を提供する。これにより、各上位文脈の重要性はその大きさの2乗に比例し、各事例が選択される可能性は、それが出現するすべての類推的に一貫性のある上位文脈の大きさの合計に正比例する。そして当然のことながら、特定の結果を予測する確率は、それを支持するすべての事例の確率の合計に比例する。

(Skousen 2002、Skousen et al. 2002、pp. 11–25、および Skousen 2003、どちらもパッシム)

数式

次の要素を含むコンテキストが与えられます。 $n$

ペアリングの合計数:

n^{2}

結果iに対する合意の数:

n_{i}^{2}

結果iに対する意見の不一致の数:

n_{i}(n-n_{i})

合意の総数:

\sum {n_{i}^{2}}

反対意見の総数:

\sum {n_{i}(n-n_{i})}=n^{2}-\sum {n_{i}^{2}}

例

この用語は例を挙げると分かりやすい。Skousen (1989)の第2章で使用されている例では、各コンテキストは0から3までの値を持つ3つの変数から構成されている。

変数1: 0,1,2,3

変数2: 0,1,2,3

変数3: 0,1,2,3

データセットの 2 つの結果はeとrであり、その例は次のとおりです。

ポインタのネットワークを次のように定義します。

実線は、結果が一致する例間のポインターを表します。点線は、結果が一致しない例間のポインターを表します。

この例の統計は次のとおりです。

n=5

n_{r}=4

n_{e}=1

ペアリングの合計数:

n^{2}=25

結果rに対する合意の数:

n_{r}^{2}=16

結果eに対する合意の数:

n_{e}^{2}=1

結果rに対する意見の不一致の数:

n_{r}(n-n_{r})=4

結果eに対する意見の不一致の数:

n_{e}(n-n_{e})=4

合意の総数:

n_{r}^{2}+n_{e}^{2}=17

反対意見の総数:

n_{r}(n-n_{r})+n_{e}(n-n_{e})=n^{2}-(n_{r}^{2}+n_{e}^{2})=8

不確実性または不一致の割合:

8/25=.32

行動は与えられたコンテキストに対してのみ予測できます。この例では、「3 1 2」というコンテキストの結果を予測してみましょう。そのためには、まず、与えられたコンテキストを含むすべてのコンテキストを見つけます。これらのコンテキストはスーパーコンテキストと呼ばれます。スーパーコンテキストを見つけるには、与えられたコンテキスト内の変数を体系的に排除します。変数がm個ある場合、通常はスーパーコンテキストが存在します。次の表は、サブコンテキストとスーパーコンテキストをそれぞれ示しています。xは「xではない」、-は「すべて」を意味します。 $2^{m}$

超文脈	サブコンテキスト
3 1 2	3 1 2
3 1 -	3 1 2、3 1 2
3-2	3 1 2、3 1 2
- 1 2	3 1 2、3 1 2
3 - -	3 1 2、3 1 2、3 1 2、3 1 2
- 1 -	3 1 2、3 1 2、3 1 2、3 1 2
- - 2	3 1 2、3 1 2、3 1 2、3 1 2
- - -	3 1 2、3 1 2、3 1 2、3 1 2、3 1 2、3 1 2、3 1 2、3 1 2、3 1 2

これらのコンテキストは以下のベン図に示されています。

次のステップは、どのコンテキストが均質であるかを判断するために、どの例がどのコンテキストに属しているかを判断することです。以下の表は、各サブコンテキスト、与えられた例に対するそれらの動作、そして動作における不一致の数を示しています。

サブコンテキスト	行動	意見の相違
3 1 2	（空の）	0
3 1 2	3 1 0 e、3 1 1 r	2
3 1 2	（空の）	0
3 1 2	2 1 2 r	0
3 1 2	（空の）	0
3 1 2	2 1 0 r	0
3 1 2	0 3 2 r	0
3 1 2	（空の）	0

上の表のサブコンテキストを分析すると、不一致のあるサブコンテキストは1つだけであることがわかります。それは「3 1 2」で、データセットでは「3 1 0 e」と「3 1 1 r」で構成されています。このサブコンテキストには2つの不一致があり、それぞれが各例から他の例を指しています（上図のポインタネットワークを参照）。したがって、このサブコンテキストを含む上位コンテキストのみが不一致を含みます。均質な上位コンテキストを識別するために、単純なルールを使用します。

上位コンテキスト内の不一致の数が、含まれる下位コンテキスト内の不一致の数よりも多い場合、それは異質であると言われます。そうでない場合は、それは同質です。

均質な超コンテキストを生み出す状況は 3 つあります。

上位文脈は空です。これは「3 - 2」の場合に当てはまり、データポイントは含まれていません。不一致の数は増加せず、上位文脈は自明に同質です。
超文脈は決定論的であり、つまり、その中では1種類の結果のみが発生します。「- 1 2」と「- - 2」は、rの結果を持つデータのみを含んでいます。
データを含むサブコンテキストは1つだけです。サブコンテキストが決定論的である必要はなく、スーパーコンテキストが均質であるために必要となるわけではありません。例えば、スーパーコンテキスト「3 1 -」と「- 1 2」は決定論的であり、空でないサブコンテキストを1つだけ含みますが、「3 - -」にはサブコンテキスト「3 1 2」のみが含まれます。このサブコンテキストには「3 1 0 e」と「3 1 1 r」が含まれるため、非決定論的です。このようなスーパーコンテキストは、非遮蔽的かつ非決定論的であると言えます。

異質な上位コンテキストは「- 1 -」と「- - -」の2つだけです。どちらの場合も、非決定論的な「3 1 2 」と、 rの結果を含む他の下位コンテキストの組み合わせが異質性を引き起こしています。

均質な超文脈には実際には4つ目の種類があります。これは、複数の空でないサブ文脈を含み、非決定論的ですが、各サブ文脈における結果の頻度は全く同じです。しかし、類推モデリングでは、以下の2つの理由から、この状況は考慮されません。

この4つの状況が発生したかどうかを判断するには、テストが必要です。これは、同質性のテストの中で算術演算を必要とする唯一のテストであり、これを無視することで、同質性のテストは統計的に自由になり、AMは人間の推論をモデル化するのにより適したものになります。 $\chi ^{2}$
これは極めてまれな状況であるため、これを無視しても予測される結果に大きな影響は及ばないと予想されます。

次に、均質な上位コンテキストからのすべてのポインタと結果からなる類推集合を構築します。下の図は、均質なコンテキストを強調表示したポインタネットワークを示しています。

ポインタは次の表にまとめられています。

均質な
超文脈

発生事例

ポインタの数

e	r

3 1 -

「3 1 0 e」、「3 1 1 r」

2	2

- 1 2

「2 1 2 r」

0	1

3 - -

「3 1 0 e」、「3 1 1 r」

2	2

- - 2

「2 1 2 r」、「0 3 2 r」

0	4

合計:

4	9

類推集合内のポインタのうち4つは結果eに関連付けられ、残りの9つはrに関連付けられています。AMでは、ポインタがランダムに選択され、それが指し示す結果が予測されます。合計13個のポインタがある場合、結果eが予測される確率は4/13、つまり30.8%、結果rが予測される確率は9/13、つまり69.2%です。均質な超文脈における各発生のポインタを列挙することで、より詳細な説明を作成できます。

発生	同質な超コンテキストの数	ポインタの数	類推効果
3 1 0 e	2	4	30.8%
3 1 1 r	2	4	30.8%
2 1 2 r	2	3	23.1%
0 3 2 r	1	2	15.4%
2 1 0 r	0	0	0.0%

次に、データセット内の各インスタンスの 類推効果を確認します。

歴史的背景

アナロジーは、少なくともソシュールの時代から、言語を記述する上で有用であると考えられてきました。近年では、ノーム・チョムスキーらが、アナロジーはあまりにも曖昧で、実際には有用ではないと批判しています（Bańko 1991）。これは、デウス・エクス・マキナ（機械仕掛けの神）への訴えかけです。スコウセンの提案は、心理学的妥当性を検証可能な、アナロジーの明確なメカニズムを提示することで、この批判に対処しているように思われます。

アプリケーション

類推モデリングは、音韻論や形態論（言語学）から綴り法や統語論に至るまで、さまざまな実験に利用されてきました。

問題

類推モデリングは、言語学者が作り出したとされる規則から自由なモデルの構築を目指していますが、現状では、研究者がどの変数を考慮するかを選択する必要があります。これは、類推モデリングを実装するコンピュータソフトウェアの処理能力要件が、いわゆる「指数関数的爆発」と呼ばれる現象によって増大する可能性があるためです。最近の研究では、量子コンピューティングがこのようなパフォーマンスのボトルネックを解消できる可能性が示唆されています（Skousen et al. 2002、45～47ページ参照）。

参照

参考文献

ロイヤル・スコウゼン（1989年）『言語のアナロジーモデリング』（ハードカバー）ドルドレヒト：クルーワー・アカデミック・パブリッシャーズ、12+212ページ、ISBN 0-7923-0517-5。
ミロスラフ・バンコ (1991年6月). 「レビュー：言語のアナロジーモデル化」(PDF) .計算言語学. 17 (2): 246– 248. 2003年8月2日時点のオリジナル(PDF)からのアーカイブ。
ロイヤル・スコウゼン（1992年）『アナロジーと構造』出版：クルーワー・アカデミック・パブリッシャーズISBN 0-7923-1935-4。
ロイヤル・スコウセン、デリル・ロンズデール、ディルワース・B・パーキンソン編 (2002). 『アナロジカル・モデリング：言語への事例に基づくアプローチ』（人間の認知処理第10巻）アムステルダム/フィラデルフィア：ジョン・ベンジャミンズ出版社. p. x+417pp. ISBN 1-58811-302-7。
Skousen, Royal. (2003). 類推モデリング：手本、ルール、そして量子コンピューティング. バークレー言語学会にて発表.

外部リンク

アナロジーモデリング研究グループのホームページ
LINGUISTリストアナロジーモデリングの発表、Skousenら（2002）