Google ブックス Ngram ビューア

Ngramクエリの例

Google Books Ngram Viewerは、1500年から2022年の間に出版された印刷資料に含まれるnグラムの年間カウントを使用して、任意の検索文字列セットの頻度をグラフ化するオンライン検索エンジンです。 [ 1 ] [ 2 ] [ 3 ] [ 4 ] Googleの英語、中国語(簡体字)、フランス語、ドイツ語、ヘブライ語、イタリア語、ロシア語、スペイン語のテキストコーパス内。 [ 1 ] [ 2 ] [ 5 ] また、アメリカ英語、イギリス英語、英語フィクションなどの特殊な英語コーパスもあります。[ 6 ]

このプログラムは、スペルミスや意味不明な単語も含め、単語やフレーズを検索することができます。[ 5 ] nグラムは選択されたコーパス内のテキストと照合され、40冊以上の書籍で見つかった場合はグラフとして表示されます。[ 6 ] Google Books Ngram Viewerは、品詞ワイルドカードの検索をサポートしています。[ 6 ]研究で日常的に使用されています。[ 7 ] [ 8 ]

歴史

Ngram Viewerは、ハーバード大学の研究者ジャン=バティスト・ミシェルとエレズ・リーバーマン・エイデン とチームを組んだGoogleのソフトウェアエンジニア、ウィル・ブロックマンとジョン・オーワント[ 9 ]によって開発されました。このサービスは2010年12月16日にリリースされました。[ 2 ] [ 10 ] リリース前は、この目的のために設計されたデータベースが存在しなかったため、言語の変化率を定量化することは困難でした、と同日に発表されたサイエンス誌の論文 の共著者の一人である著名な言語学者スティーブン・ピンカー[ 11 ]は述べています。 [ 1 ] Google Books Ngram Viewerは人文科学分野での定量的研究への新しい窓を開くことを目的として開発され、データベースには当初から公開されていた520万冊の書籍から5000億語が収録されていました[ 2 ] [ 3 ] [ 10

対象読者は学者でしたが、Google Books Ngram Viewerは、コンピューターを持つ人なら誰でも、単語やフレーズの使用の通時的変化を示すグラフを簡単に見ることができるようにしました。リーバーマン氏はニューヨーク・タイムズ紙の取材に対し、開発者は子供たちにも歴史を通じた文化的動向を閲覧できる機能を提供することを目指していたと述べました。[ 10 ]サイエンス誌の論文で、リーバーマン氏と共同研究者は、デジタル化されたテキストにおける大量データ分析の手法を「カルチュロミクス」と呼んでいます。[ 1 ] [ 10 ]

使用法

ユーザーが入力した検索語はカンマで区切られ、カンマで区切られた各語はデータベース内でnグラムとして検索されます(例えば、「保育園」は2グラムまたはバイグラムです)。[ 6 ] Nグラムビューアは、プロットされた折れ線グラフを返します。Nグラムデータベースのサイズ制限により、少なくとも40冊の書籍で見つかった一致のみがインデックス化されることに注意してください。[ 6 ]

制限事項

Ngram Viewerのデータセットは、不正確な光学式文字認識(OCR)に依存していること、日付や分類が誤っているテキストが多数含まれていることなどが批判されている。[ 12 ] これらのエラーと、バイアスが制御されていないこと (科学文献の増加により、他の用語の人気が低下しているように見えるなど)のため、[ 13 ]コーパスを言語の研究や理論の検証に使用する際には注意が必要である。 [ 14 ]さらに、データセットは一般的な言語的または文化的変化を反映していない可能性があり、著作権侵害の可能性を回避するために、出版日、著者、長さ、ジャンルなどのメタデータを 含まないため、そのような影響を示唆することしかできない。[ 15 ]

19世紀以前のテキストにおけるsfの混同のような体系的なエラー( fと外見が似ている長い s であるſ使用による)は、体系的なバイアスを引き起こす可能性があります。[ 14 ] Google Books チームは、1800年以降の結果は信頼できると主張していますが、OCR の精度が悪く、データが不十分なため、中国語などの言語の頻度は1970年以降にしか正確ではない可能性があり、コーパスの以前の部分では一般的な用語の結果がまったく表示されず、一部の年にはデータに50%以上のノイズが含まれています。[ 16 ] [ 17 ]

Google Ngramのデータを用いた研究を行うためのガイドラインが提案されており、上で議論した問題のいくつかに対処しようとしている。[ 18 ]

参照

参考文献

  1. ^ a b c d Michael, Jean-Baptiste; Shen, Yuan K.; Aiden, Aviva P.; Veres, Adrian; Gray, Matthew K.; Google Books Team; Pickett, Joseph P.; Hoiberg, Dale ; Clancy, Dan; Norvig, Peter ; Orwant, Jon; Pinker, Steven ; Nowak, Martin A.; Aiden, Erez L. (2010). 「数百万冊のデジタル書籍を用いた文化定量分析」 . Science . 331 (6014): 176– 182. doi : 10.1126/science.11 ​​99644. PMC  3279742. PMID 21163965  .
  2. ^ a b c d Bosker, Bianca (2010年12月17日). 「Google Ngramデータベース、5000億語の人気度を記録」 .ハフィントン・ポスト. 2012年5月31日閲覧
  3. ^ a b Lance Whitney (2010年12月17日). 「GoogleのNgramビューア:言葉遊びのタイムマシン」 . Cnet.com. 2014年1月23日時点のオリジナルよりアーカイブ。 2012年5月31日閲覧
  4. ^ @searchliaison (2020年7月13日). 「Google Books Ngram Viewerが2019年までの最新データに更新されました」ツイート2020年8月11日閲覧– Twitter経由。
  5. ^ a b「Google Books Ngram Viewer - University at Buffalo Libraries」 . Lib.Buffalo.edu. 2011年8月22日. 2013年7月2日時点のオリジナルよりアーカイブ。 2012年5月31日閲覧
  6. ^ a b c d e「Google Books Ngram Viewer - Information」 。 2024年6月1日閲覧
  7. ^グリーンフィールド、パトリシア・M. (2013). 1800年から2000年にかけての文化心理学の変化」 .心理科学. 24 (9): 1722– 1731. doi : 10.1177/0956797613479387 . ISSN 0956-7976 . PMID 23925305. S2CID 6123553 .   
  8. ^ Younes, Nadja; Reips, Ulf-Dietrich (2018). 「ドイツ語圏における文化心理学の変化:Google Ngramを用いた研究」 . International Journal of Psychology . 53 : 53–62 . doi : 10.1002/ijop.12428 . PMID 28474338. S2CID 7440938 .  
  9. ^ 「Google ブックス Ngram ビューアによる言語検索の強化」
  10. ^ a b c d「5000億語で文化への新たな窓を開く」ニューヨーク・タイムズ2010年12月16日 . 2024年6月1日閲覧
  11. ^ 「スティーブン・ピンカー『思考の素材:人間性を垣間見るための言語』」王立芸術協会2010年2月4日2024年6月2日閲覧– YouTubeより
  12. ^ Nunberg, Geoff (2010-12-16). 「Google Books corpusを用いた人文科学研究」 . 2016年3月10日時点のオリジナルよりアーカイブ。 2015年4月19日閲覧
  13. ^ Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan; Barrat, Alain (2015-10-07). 「Googleブックスコーパスの特徴づけ:社会文化的および言語的進化の推論に対する強い限界」 . PLOS One . 10 (10) e0137041. arXiv : 1501.00960 . Bibcode : 2015PLoSO..1037041P . doi : 10.1371/journal.pone.0137041 . PMC 4596490. PMID 26445406 .  
  14. ^ a bチャン・サラ「Google Ngramを使って言語を学ぶ際の落とし穴」 WIRED . 2017年5月24日閲覧
  15. ^コプレニグ、アレクサンダー (2015年9月2日). 「Google Ngramデータセットを用いた文化的・言語的変化の測定におけるメタデータの欠如の影響 ― 第二次世界大戦期のドイツ語コーパスの構成の再構築」 .人文科学デジタル研究. 32 (1).オックスフォード・アカデミック(2017年4月1日出版): 169– 188. doi : 10.1093/llc/fqv037 . ISSN 2055-7671 . 
  16. ^ 「Google n -gramと近代以前の中国語」digitalsinology.org . 2015年4月19日閲覧
  17. ^ 「 nグラムが悪くなるときdigitalsinology.org . 2015年4月19日閲覧
  18. ^ Younes, Nadja; Reips, Ulf-Dietrich (2019-03-22). 「Google Ngram研究の信頼性向上のためのガイドライン:宗教用語からの証拠」 . PLOS One . 14 (3) e0213554. Bibcode : 2019PLoSO..1413554Y . doi : 10.1371/journal.pone.0213554 . ISSN 1932-6203 . PMC 6430395. PMID 30901329 .   

参考文献