国立テキストマイニングセンター

UK academic institution

国立テキストマイニングセンター(NaCTeM)
設立2004年; 21年前 (2004)
親機関
マンチェスター大学コンピュータサイエンス学部
所属マンチェスター大学
監督ソフィア・アナニアドゥ
位置
Webサイトwww.nactem.ac.uk

国立テキストマイニングセンターNaCTeM[1]は、公的資金によって運営されているテキストマイニング(TM)センターです。TM技術に関するサポート、アドバイス、情報提供、そしてより広範なTMコミュニティへの情報発信を目的として設立されました。また、英国の学術コミュニティの要望に応えるサービスとツールも提供しています。

NaCTeMが提供するソフトウェアツールとサービスにより研究者はテキストマイニング技術をそれぞれの関心分野における問題に適用することができます。これらのツールの例を以下に示します。サービス提供に加えて、当センターはEurope PubMed Centralなどのイニシアチブを通じて、国内外のテキストマイニング研究コミュニティにも積極的に参加し、多大な貢献をしています。

このセンターはマンチェスター・バイオテクノロジー研究所内に設置され、マンチェスター大学コンピュータサイエンス学部によって運営・管理されています。NaCTeMは、自然言語処理情報抽出(固有表現認識、固有表現間の複雑な関係性(またはイベント)の抽出を含む)に関する専門知識に加え、バイオメディカルおよび臨床アプリケーションにおける並列・分散データマイニングシステムの開発に貢献しています。

サービス

テルマイン

TerMineはドメインに依存しない自動用語認識手法であり、文書内で最も重要な用語を見つけて自動的にランク付けするのに役立ちます。[2]

アクロマイン

AcroMineは、 Medlineのエントリに出現した頭字語の既知の拡張形式をすべて見つけます。また逆に、Medlineに以前出現した拡張形式の頭字語の可能性を見つけて、それらの曖昧さを解消するために使用できます。[3]

メディ

Medieは、Medlineの抄録から生物医学的相関関係を含む文章を意味的に検索するためのインテリジェントな検索エンジンです。[4] [5]

ファクト+

Facta+は、生物医学的概念間の関連性を見つけるためのMedline検索エンジンです。[6]

Facta+ ビジュアライザー

Facta+ Visualizerは、直感的なグラフィカルな視覚化を通じてFACTA+の検索結果を理解するのに役立つウェブアプリケーションです。[7]

クレイオ

KLEIO は、Medline 抄録に対するファセット セマンティック情報検索システムです。

ヨーロッパPMC証拠ファインダー

ヨーロッパPMCエビデンスファインダーヨーロッパPMCエビデンスファインダーは、ヨーロッパPubMedセントラルデータベースの全文記事内で興味のあるエンティティに関連する事実をユーザーが探索するのに役立ちます[8]

メタ知識を備えた解剖学的実体のためのEUPMC証拠ファインダー

メタ知識を備えた解剖学的実体のためのEUPMC Evidence Finderは、Europe PMC EvidenceFinderに類似しており、Europe PubMed Centralデータベースの全文論文内で解剖学的実体に関する事実を探索できます。事実は、解釈の様々な側面(例:否定、確実性レベル、新規性)に基づいてフィルタリングできます。

情報-PubMed

Info-PubMedは、Medlineからディープセマンティック解析技術を用いて抽出された生物医学的相互作用に関する情報とグラフィカルな表現を提供します。これには、20万以上のタンパク質/遺伝子名、疾患の種類および生物種の識別情報を含む用語辞書が補完されています

臨床試験プロトコル(ASCOT)

ASCOTは臨床試験文書向けにカスタマイズされた、効率的で意味的に強化された検索アプリケーションです。[9]

医学史(HOM)

HOMは、歴史的な医療文書アーカイブに対するセマンティック検索システムです。

リソース

バイオレキシコン

BioLexiconは生物医学分野における大規模な用語リソースです。[10]

ジェニア

GENIA は、生物医学テキスト マイニング システムの開発のための参考資料のコレクションです。

グレック

GRECは、生物医学文献からイベントを抽出するために使用されるIEシステムやリソースのトレーニングを目的とした、Medlineアブストラクトの意味的に注釈付けされたコーパスです。[11]

代謝物と酵素コーパス

これは、代謝物と酵素の名前を専門家が注釈した Medline 抄録のコーパスです。

解剖学体

生物医学科学テキストの詳細かつ包括的な分析を実行できるテキストマイニングシステムの開発を促進するために、種に依存しないきめ細かな解剖学的エンティティで手動で注釈が付けられたコーパスのコレクション。[12] [13]

メタ知識コーパス

これはGENIAイベントコーパスの拡充であり、イベントは解釈に関わる様々なレベルの情報で拡充されています。その目的は、事実情報と実験分析、明確な情報と推測情報などを区別できるシステムを訓練できるようにすることです。[14]

プロジェクト

アルゴ

Argoプロジェクトの目的は、テキストデータの分析(主にアノテーション)のためのワークベンチを開発することです。ウェブアプリケーションとしてアクセスされるこのワークベンチは、基本的なテキスト処理コンポーネントを組み合わせて包括的な処理ワークフローを形成することをサポートします。通常は自動で行われるアノテーション処理に手動で介入し、アノテーションを修正または新規作成する機能を提供します。また、ユーザー所有のリソースを共有することで、ユーザー間のコラボレーションを促進します。Argoは、テキスト分析設計者には処理ワークフロー開発のための統合環境を提供することで、アノテーター/キュレーターには自動前処理および後処理によってサポートされる手動アノテーション機能を提供することで、開発者にはテキスト分析のテストと評価のためのワークベンチを提供することで、ユーザーにメリットをもたらします。

ビッグメカニズム

ビッグメカニズムとは、相互作用が重要な因果関係を持つ複雑なシステムの大規模な説明モデルです。ビッグデータの収集はますます自動化されていますが、ビッグメカニズムの作成は依然として主に人間の努力にかかっており、知識の断片化と分散により、ますます困難になっています。ビッグメカニズムの構築を自動化する能力は、科学研究に大きな影響を与える可能性があります。DARPAが資金提供するビッグメカニズムプログラムを構成するさまざまなプロジェクトの1つとして、文献と以前の実験から包括的なビッグメカニズムを組み立て、これを新しい患者のパノミクスデータの確率的解釈に利用することが目標です。私たちは、特別に設計されたオントロジー、がんのメカニズム(パスウェイ)の計算モデル化、メカニズムに関する知識を拡張するための自動仮説生成、および仮説を検証するための実験を実行する「ロボット科学者」を使用して、がん文献の機械読み取りとがんの主張全体の確率的推論を統合します。テキストマイニング、モデリング、実験テスト、世界観の更新の繰り返しサイクルは、がんのメカニズムに関する知識の増加につながることを目的としています。

パステキスト

Pathtext/Refineは、パスウェイビジュアライザー、テキストマイニングシステム、注釈ツールを統合するように設計されたシステムです。[15] [16]

豊富な

このプロジェクトは、フィリピンのパートナーが有する分野関連の専門知識とリソースと、マンチェスター大学国立テキストマイニングセンターのテキストマイニングに基づくビッグデータ分析を組み合わせることで、フィリピンの生物多様性に関する知識リポジトリを構築することを目的としています。このリポジトリは、分類、分布、生態、生体分子、生化学といった様々な種類の情報の相乗効果を生み出し、ユーザーに関心のある種に関する包括的な見解を提供することで、(1)種の分布に関する予測分析、(2)フィリピンの種由来の天然物の潜在的な医薬用途の調査を可能にします。

ヨーロッパPMCプロジェクト

これは、欧州バイオインフォマティクス研究所(EBI)のテキストマイニンググループおよびMimas(データセンター)とのコラボレーションであり、大英図書館が主催および調整するEurope PubMed Centralプロジェクト(旧UKPMC)の作業パッケージを形成しています。Europe PMCは全体として、米国国立衛生研究所(NIH)と共同で、PubMed Central論文リポジトリの欧州版を形成しています。Europe PMCは、生物医学研究資金提供者の主要な資金提供団体のコンソーシアムによって資金提供されています。この主要プロジェクトへの貢献は、情報検索および知識発見を強化するためにテキストマイニングソリューションを適用することです。そのため、これは他のNaCTeMプロジェクトで開発された技術を大規模に適用したもので、生物医学コミュニティの主要なリソースとなっています。

鉱業における生物多様性

このプロジェクトは、生物多様性遺産図書館(BHL)を次世代のソーシャルデジタル図書館リソースへと変革し、世界中のコミュニティによる生物多様性に関する科学文献の研究と議論(ソーシャルメディアとの統合を通じた)を促進し、一般の人々の間で生物多様性の経時的変化に対する意識を高めることを目的としています。このプロジェクトでは、革新的なテキストマイニング手法、視覚化、クラウドソーシング、ソーシャルメディアをBHLに統合します。結果として得られるデジタルリソースは、意味論的に強化されたインタラクティブな閲覧・検索機能を通じて、BHL図書館文書の全コンテンツへの完全相互リンクとインデックスアクセスを提供し、ユーザーが関心のある情報を簡単かつ効率的に正確に見つけることを可能にします。

公衆衛生のための鉱業

このプロジェクトは、テキストマイニングと機械学習における新たな研究を行い、エビデンスに基づく公衆衛生(EBPH)レビューの実施方法を変革することを目的としています。本プロジェクトの目標は、用語の類似性を導出するための新しい教師なしテキストマイニング手法の開発、EBPHレビュー中のスクリーニング支援、そして複数の種類の意味のある関連性を動的かつ反復的にランク付け・視覚化する新しいアルゴリズムの開発などです。これらの新しく開発された手法は、パイロット試験の実施に基づいてEBPHレビューで評価され、EBPHレビューにおける変革のレベルを把握します。

参考文献

  1. ^ Ananiadou S (2007). 「国立テキストマイニングセンター:未来へのビジョン」Ariadne (53).
  2. ^ Frantzi, K., Ananiadou, S., Mima, H. (2007). 「複数語からなる用語の自動認識」(PDF) . International Journal of Digital Libraries . 3 (2): 117– 132.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  3. ^ Okazaki N, Ananiadou S (2006). 「用語認識アプローチを用いた略語辞書の構築」.バイオインフォマティクス. 22 (24): 3089–95 . doi : 10.1093/bioinformatics/btl534 . PMID  17050571.
  4. ^ 宮尾雄志・太田毅・増田健・鶴岡雄志・吉田健・二宮毅・辻井淳一 (2006).大規模テキストベースにおける関係概念の正確な同定のための意味検索.第21回国際計算言語学会議および第44回計算言語学協会年次会議の議事録.pp.  1017– 1024. doi : 10.3115/1220175.1220303 .{{cite conference}}: CS1 maint: multiple names: authors list (link)
  5. ^ "MEDIE". NaCTeM . 2022年3月25日閲覧
  6. ^ 鶴岡雄一、辻井淳、アナニアドゥ・スズキ (2008). 「FACTA:関連する生物医学概念を見つけるためのテキスト検索エンジン」.バイオインフォマティクス. 24 (21): 2559–60 . doi :10.1093/bioinformatics/btn469. PMC 2572701. PMID 18772154  . 
  7. ^ 鶴岡雄三; 三輪正之; 浜本健一; 辻井淳; アナニアドゥ誠 (2011). 「生物医学概念間の間接的な関連性の発見と可視化」.バイオインフォマティクス. 27 (13): i111–9. doi :10.1093/bioinformatics/btr214. PMC 3117364. PMID 21685059  . 
  8. ^ ヨーロッパPMCコンソーシアム (2014). 「ヨーロッパPMC:ライフサイエンスのためのフルテキスト文献データベースとイノベーションのためのプラットフォーム」. Nucleic Acids Research . 43 (D1): D1042 – D1048 . doi :10.1093/nar/gku1061. PMC 4383902. PMID 25378340  .  
  9. ^ Korkontzelos, I., Mu, T.、Ananiadou, S. (2012). 「ASCOT:臨床試験の効率的な検索と作成を支援するテキストマイニングベースのウェブサービス」BMC Medical Informatics and Decision Making . 12 (Suppl 1): S3. doi : 10.1186/1472-6947-12-S1-S3 . PMC 3339391 . PMID  22595088. {{cite journal}}: CS1 maint: multiple names: authors list (link)
  10. ^ Thompson, P.、McNaught, J.、Montemagni, S.、Calzolari, N.、del Gratta, R.、Lee, V.、Marchi, S.、Monachini, M.、Pezik, P.、Quochi, V.、Rupp, CJ、Sasaki, Y.、Venturi, G.、Rebholz-Schuhmann, D. および Ananiadou, S. (2011)。 「The BioLexicon: 生物医学テキスト マイニングのための大規模な用語リソース」。BMCバイオインフォマティクス12 397.土井: 10.1186/1471-2105-12-397PMC 3228855PMID  21992002。 {{cite journal}}: CS1 maint: multiple names: authors list (link)
  11. ^ Thompson, P., Iqbal, SA, McNaught, J., Ananiadou, S. (2009). 「生物医学情報抽出を支援する注釈付きコーパスの構築」BMC Bioinformatics . 10 349. doi : 10.1186/1471-2105-10-349 . PMC 2774701 . PMID  19852798. {{cite journal}}: CS1 maint: multiple names: authors list (link)
  12. ^ Pyysalo, S., Ohta, T., Miwa, M., Cho, H.-C., Tsujii, J., Ananiadou, S. (2012). 「生物学的組織の複数レベルにわたるイベント抽出」.バイオインフォマティクス. 28 (18): i575 – i581 . doi :10.1093/bioinformatics/bts407. PMC 3436834. PMID 22962484  .  {{cite journal}}: CS1 maint: multiple names: authors list (link)
  13. ^ Pyysalo, S. & Ananiadou, S. (2014). 「文献スケールにおける解剖学的実体言及認識」.バイオインフォマティクス. 30 (6): 868– 875. doi :10.1093/bioinformatics/btt580. PMC 3957068. PMID  24162468 . 
  14. ^ Thompson, P., Nawaz, R., McNaught, J., Ananiadou, S. (2011). 「メタ知識アノテーションによる生物医学イベントコーパスの拡充」BMC Bioinformatics . 12 393. doi : 10.1186/1471-2105-12-393 . PMC 3222636 . PMID  21985429. {{cite journal}}: CS1 maint: multiple names: authors list (link)
  15. ^ Anon (2010). 「PathText/Refineプロジェクト」. nactem.ac.uk . 2022年1月22日時点のオリジナルよりアーカイブ。
  16. ^ ブライアン・ケンパー;松崎拓也松岡由紀子。鶴岡義政北野宏明;ソフィア・アナニアドゥ;辻井淳一(2010年6月1日)。 「PathText: 生物学的経路視覚化のためのテキスト マイニング インテグレーター」。バイオインフォマティクス26 (12): i374-81。土井:10.1093/BIOINFORMATICS/BTQ221。ISSN  1367-4803。PMC 2881405PMID  20529930。ウィキデータ Q33896337。 
  • http://www.nactem.ac.uk
Retrieved from "https://en.wikipedia.org/w/index.php?title=National_Centre_for_Text_Mining&oldid=1323001439"