洞窟電話

言語学コンピューティングの分野におけるCaverphone英語名をその音で識別するために発明された音声マッチングアルゴリズム[1] [2]であり、もともとは1893年から1938年の間にニュージーランドのダニーデン南部でカスタムデータセット複合語を処理するために構築されました。 [3] metaphoneと同様の概念から始まり、それ以来、一般的な英語に対応して処理するために開発されました。[3]

語源

Caverphoneは、ニュージーランドオタゴ大学Cavershamプロジェクトにおいて、2002年にDavid Hood氏によって開発され、2004年に改訂されました。これは、19世紀後半と20世紀初頭の選挙人名簿間のデータ照合を支援するために開発されました。これらのデータ照合では、氏名が「一般的に認識可能な形式」であることのみが求められました。このアルゴリズムは、選挙人名簿間で容易に照合できない氏名に適用することを目的としており、完全な一致は潜在的な一致候補から除外されました。このアルゴリズムは、研究対象地域(ニュージーランド、ダニーデン市南部)に存在するアクセントに最適化されています。

手順

キャバーフォン 1.0

アルゴリズムのルールは、一連の置換として、特定の名前に連続的に適用されます。

アルゴリズムは次のとおりです。

  1. 小文字に変換
  2. AZ以外のものはすべて削除
  3. 名前が...で始まる場合
    1. 咳をcou2fに置き換えます
    2. rough 、 rou2fに置き換えます
    3. toughをtou2fに置き換えます
    4. 十分です。enou2fに置き換えてください
    5. gnを2nに置き換える
  4. 名前が
    1. mbをm2に置き換えます
  5. 交換する
    1. 2qcq
    2. cisi
    3. cese
    4. cysy
    5. 2chtch
    6. ck
    7. qk
    8. xk
    9. vf
    10. 2gdg
    11. tiosio
    12. ティアシア
    13. dt
    14. phfh
    15. bp
    16. shs2
    17. zs
    18. A始まる母音
    19. 3その他の母音
    20. 3gh33kh3
    21. 22gh
    22. gk
    23. Sを含む文字sのグループ
    24. Tを含む文字tのグループ
    25. Pを含む文字pのグループ
    26. Kを含む文字kのグループ
    27. Fを含む文字fのグループ
    28. M文字mのグループ
    29. Nを含む文字nのグループ
    30. w3W3
    31. wyWy
    32. wh3Wh3
    33. なぜなぜ
    34. w2
    35. 最初の文字Aのh
    36. hが2であるその他のすべての出現
    37. r3R3
    38. ryRy
    39. r2
    40. l3L3
    41. lyLy
    42. 2l
    43. jy
    44. y3Y3
    45. y2
  6. すべて削除
    1. 2
    2. 3
  7. 最後に1を6つ付ける
  8. 最初の6文字をコードとして取得する

キャバーフォン 2.0

  1. 単語から始める
  2. 小文字に変換
  3. 標準アルファベット(通常はaz)に含まれないものをすべて削除します[注1]
  4. 最後のeを削除
  5. 名前が
    1. する
    2. ラフ作る
    3. タフはそれを強引にする
    4. 十分
    5. トラフはそれをtrou2fにする
    6. gn 2nにする
  6. 名前が
    1. mbをm2にする
  7. 交換する
    1. 2qcq
    2. cisi
    3. cese
    4. cysy
    5. 2chtch
    6. ck
    7. qk
    8. xk
    9. vf
    10. 2gdg
    11. tiosio
    12. ティアシア
    13. dt
    14. phfh
    15. bp
    16. shs2
    17. zs
    18. 母音[注2]がA始まる
    19. 3その他の母音
    20. jy
    21. Y3初期y3
    22. A始まるy
    23. y3
    24. 3gh33kh3
    25. 22gh
    26. gk
    27. Sを含む文字sのグループ
    28. Tを含む文字tのグループ
    29. Pを含む文字pのグループ
    30. Kを含む文字kのグループ
    31. Fを含む文字fのグループ
    32. M文字mのグループ
    33. Nを含む文字nのグループ
    34. w3W3
    35. wh3Wh3
    36. 名前がwで終わる場合は、最後のwを3に置き換えます。
    37. w2
    38. 最初の文字がhで始まり、文字がA
    39. hが2であるその他のすべての出現
    40. r3R3
    41. 名前がrで終わる場合は最後のrを3に置き換えます
    42. r2
    43. l3L3
    44. 名前がlで終わる場合は、最後のlを3に置き換えます。
    45. 2l
  8. 2すべて削除
  9. 名前が3で終わる場合は、最後の3 をAに置き換えます。
  10. 3すべて削除
  11. 最後に10個の1をつける
  12. 最初の10文字をコードとして取得する

  1. ^ 文字セットにæāøなどの文字が含まれている場合は異なる場合があります。
  2. ^ 母音は通常 a、e、i、o、u ですが、データによっては æ、ā、ø などの文字が含まれる場合があります。

キャバーフォン 1.0

リー -> リー
リー -> l33
l33 -> L33
L33 -> L
L -> L111111
L111111 -> L11111
トンプソン -> トンプソン
トンプソン -> th3mps​​3n
th3mps​​3n -> th3mpS3n
th3mpS3n -> Th3mpS3n
Th3mpS3n -> Th3mPS3n
Th3mPS3n -> Th3MPS3n
Th3MPS3n -> Th3MPS3N
Th3MPS3N -> T23MPS3N
T23MPS3N -> TMPSN
TMPSN111111 -> TMPSN1

キャバーフォン 2.0

リー -> リー
リー -> ル
le -> l3
l3 -> L3
L3 -> LA
ラ -> LA1111111111
LA1111111111 -> LA11111111
トンプソン -> トンプソン
トンプソン -> th3mps​​3n
th3mps​​3n -> th3mpS3n
th3mpS3n -> Th3mpS3n
Th3mpS3n -> Th3mPS3n
Th3mPS3n -> Th3MPS3n
Th3MPS3n -> Th3MPS3N
Th3MPS3N -> T23MPS3N
T23MPS3N -> TMPSN
TMPSN1111111111 -> TMPSN11111

参照

参考文献

  1. ^ ミレット、グレッグ、ストラウド、アダム (2012-05-18). プロフェッショナル Android センサープログラミング. John Wiley & Sons. pp. 421–. ISBN 9781118240458. 2013年2月19日閲覧
  2. ^ Phua, Clifton; Lee, Vincent; Smith, Kate (2006). 「個人名問題と推奨されるデータマイニングソリューション」データウェアハウスとマイニング百科事典. CiteSeerX 10.1.1.127.5111 . 
  3. ^ ab "Caverphone".米国国立標準技術研究所. 2018年8月20日閲覧。
  • Caversham プロジェクト - 1893 年から 1938 年にかけてニュージーランドのダニーデン南部で記録された名前とアクセントの Caversham データ セット。
  • オリジナル(2002年)Caverphoneアルゴリズム
  • 改訂版(2004年)Caverphoneアルゴリズム
  • 実装:
    • C# 改訂実装
    • Apache Commons Codec プロジェクトの Java 実装
    • PHP実装
    • Python実装caverphoneアルゴリズム(バージョン2.0) - AdvaS高度検索プロジェクト
「https://en.wikipedia.org/w/index.php?title=Caverphone&oldid=1305038936」より取得