マッチ・レーティング・アプローチ(MRA)は、発音によって単語を索引付けする音声アルゴリズムであり、1977年にウエスタン航空によって同音異義語の索引付けと比較のために開発されました。[1]
このアルゴリズム自体は、シンプルなエンコードルールセットと、より複雑な比較ルールセットで構成されています。主なメカニズムは類似度比較で、文字列を左から右、そして右から左へと比較し、一致しない文字を除外することで、一致しない文字数を計算します。この値は6から減算され、最小閾値と比較されます。最小閾値は表Aで定義されており、文字列の長さに依存します。
エンコードされた名前は(おそらく誤って)個人数値識別子(PNI)と呼ばれます。エンコードされた名前は、英字のみで6文字を超えることはできません。
マッチレーティング手法は、 NYSIISアルゴリズムの本来の手法とは異なり、「y」という文字を含む名前に対して良好なパフォーマンスを発揮します。例えば、「Smith」と「Smyth」という姓は正常に一致します。ただし、MRAは長さが2以上異なるエンコードされた名前に対しては良好なパフォーマンスを発揮しません。
エンコード規則
- 単語の先頭に母音がない場合は、すべての母音を削除します。
- 二重子音がある場合は、2番目の子音を削除します
- 最初の3文字と最後の3文字のみを結合して、コーデックスを6文字に減らします。
比較規則
このセクションでは、「文字列」および「名前」という語は、「エンコードされた文字列」および「エンコードされた名前」を意味します
- エンコードされた文字列間の長さの差が 3 以上の場合、類似性の比較は行われません。
- エンコードされた文字列の長さの合計を計算し、表 A を使用して最小の評価値を取得します。
- エンコードされた文字列を左から右に処理し、両方の文字列から見つかった同一の文字をそれぞれ削除します。
- 一致しない文字を右から左に処理し、両方の名前から見つかった同一の文字をそれぞれ削除します。
- 長い方の文字列の6文字から一致しない文字の数を引きます。これが類似度です。
- 類似度の評価が最小評価以上である場合、一致は良好であるとみなされます。
最小閾値
次の表は、最小評価と文字列の長さの対応を示しています
| 長さの合計 | 最小評価 |
|---|---|
| ≤ 4 | 5 |
| 4 < 合計 ≤ 7 | 4 |
| 7 < 合計 ≤ 11 | 3 |
| = 12 | 2 |
一致評価アプローチの例
以下の表は、いくつかの一般的な同音異義語の名前に対する一致評価アプローチアルゴリズムの出力を示しています
| 名称 | MRAコーデックス | 最小評価 | 類似性比較評価 |
|---|---|---|---|
| バーン | バーン | 4 | 5 |
| バーン | BRN | ||
| スミス | スミス | 3 | 5 |
| スミス | スミス | ||
| キャサリン | キャスリン | 3 | 4 |
| キャサリン | クシュリン |
参照
参考文献
- ^ Moore, G. B.; Kuhns, J. L.; Treffzs, J. L.; Montgomery, C. A. (1977年2月1日). 非一意の識別子を用いた個人データファイルからの個別記録へのアクセス。米国国立標準技術研究所。17ページ。NIST SP-500-2
外部リンク
- 個人識別情報の使用に関する問題の概要、HSMD、カナダ統計局
- C#実装: http://sounditout.codeplex.com/