MA trixware RE search Collection(MAREC )は、研究目的で利用可能な標準化された特許データコーパスです。MARECは、特定の研究課題に答えるために、複数の言語で書かれた特許文書を表現することを目的としています。[1] [2] MARECは、1,900万件の異なる言語の特許文書で構成され、非常に具体的なXMLスキーマに正規化されています。[3]
MARECは、情報検索、自然言語処理、機械翻訳など、大量の複雑な文書を必要とする分野の研究のための原材料となることを目的としています。 [4]このコレクションには19の言語の文書が含まれており、その大部分は英語、ドイツ語、フランス語で、文書の約半数に全文が含まれています。
MARECでは、異なる国や情報源からの文書が、統一された特許番号体系と引用形式を備えた共通のXML形式に標準化されます。標準化されたフィールドには、日付、国、言語、参考文献、人名、企業名、そしてIPCコードなどの主題分類が含まれます。[5]
MARECは、多くの文書が他の言語で類似のバージョンで利用可能な比較可能なコーパスです。比較可能なコーパスは、同様のトピックを共有するテキスト(異なる国における同時期のニューステキストなど)で構成されると定義できます。一方、対訳コーパスは、ソース言語からターゲット言語への翻訳が整合された文書の集合と定義されます。[6]特許文書は同じ「発明」または「アイデアの概念」に言及しているため、テキストは発明の翻訳ですが、テキスト自体の直接的な翻訳である必要はありません。明確化のためにテキストの一部が削除または追加されている可能性があります。[7]
19,386,697個のXMLファイルは合計621GBで、Information Retrieval Facility(情報検索施設)によってホストされています。研究目的であれば、アクセスとサポートは無料です。
ユースケース
- MAREC は、Patent Language Translations Online (PLuTO) プロジェクトで使用されます。
参考文献
- ^ Merz C., (2003) 統語的に注釈が付けられたコーパスのためのコーパスクエリツール 学位論文、チューリッヒ大学、計算言語学科、スイス
- ^ Biber D., Conrad S., Reppen R. (2000) コーパス言語学:言語構造と使用の探究 Cambridge University Press, 第2版
- ^ “MAREC, University of Technology Vienna”. www.ifs.tuwien.ac.at . 2020年12月1日閲覧。
- ^ Manning, CDとSchütze, H. (2002) 統計的自然言語処理の基礎 ケンブリッジ、マサチューセッツ州、マサチューセッツ工科大学(MIT) ISBN 0-262-13360-1。
- ^ 欧州特許庁(2009年)「欧州特許庁における審査ガイドライン」、欧州特許庁発行、ドイツ(2009年4月)
- ^ Järvelin A., Talvensaari T., Järvelin Anni, (2008) ノイズの多い環境における単一言語および多言語IRパフォーマンスを向上させるデータ駆動型手法、ノイズの多い非構造化テキストデータの分析に関する第2回ワークショップの議事録、(シンガポール)
- ^ Taleb, A.; Legrand, J.; Takache, H.; Taha, S.; Pruvost, J. (2017). 「バイオディーゼル燃料への応用を目的とした、窒素欠乏下におけるパラクロレラ・ケスレリの脂質生産に関する研究」(PDF) . Journal of Applied Phycology . 30 (2): 761– 772. doi :10.1007/s10811-017-1286-0. S2CID 13925039.
外部リンク
- ユーザーガイドと統計
- 情報検索機能 2008年5月22日アーカイブWayback Machine