配列プロファイリングツール

バイオインフォマティクスにおける配列プロファイリングツールは、遺伝子配列、遺伝子名、またはキーワード入力に関連する情報を提供するソフトウェアの一種です。このようなツールは通常、 DNA、RNA、タンパク質配列などのクエリ、または「キーワード」を受け取り、その配列に関連する情報を1つ以上のデータベースで検索します。要約と集計結果は標準化された形式で提供され、通常は多数の小規模サイトへのアクセスや文献の直接検索が必要となる情報を記述します。多くの配列プロファイリングツールは、大規模かつ増加し続けるバイオインフォマティクスデータベースでクエリに関する情報を検索するプロセスを簡素化するソフトウェアポータルまたはゲートウェイです。これらのツールには、Webベースまたはローカルにダウンロード可能な実行ファイルでアクセスできます。

はじめにと使用法

「ポストゲノミクス」の時代では、大量の一次配列情報、タンパク質構造、遺伝子注釈、配列アライメント、その他の一般的なバイオインフォマティクスタスクを編集、整理、配信するための、さまざまなWebベースのツールとソフトウェアが登場しました

一般に、データベースとサービスプロバイダーには 3 つの種類があります。1 つ目は、NCBI、ExPASy、Ensembl、PDBなど、資金や助成金でサポートされている人気のパブリックドメインまたはオープンアクセスデータベースです。2 つ目は、個々の研究グループによって編成およびコンパイルされた、より小規模またはより専門的なデータベースです。例としては、Yeast Genome Database、RNA database ( Library of Congress Web Archivesに 2002-09-15アーカイブ済み)などがあります。最後の 3 つ目は、アクセスするために料金を支払ったり機関に所属したりする必要がある、企業または機関の非公開データベースです。公共データベースのグローバル化を考えると、このような例はまれですが、サービスが「開発中」であるか、分析のエンドポイントに商業的価値がある場合は別です。

プロファイリング手法の典型的なシナリオは、特に最初の 2 つのグループの場合に重要になります。これらのグループでは、研究者は通常、単一のクエリまたはターゲット配列に関して複数の情報源から得られた情報を組み合わせようとします。たとえば、ユーザーは配列アライメントおよび検索ツールBLASTを使用して、対象遺伝子の他の種における相同遺伝子を特定し、その結果を使用して相同遺伝子の 1 つについて解明済みのタンパク質構造を見つけます。同様に、対象遺伝子をコードするmRNAの二次構造の可能性を知りたい場合や、企業がその遺伝子を含むDNA 構造体を販売しているかどうかを知りたい場合もあります。配列プロファイリングツールは、複数の異なる外部データベースを検索するプロセスをユーザーに対して透過的にすることで、このような異なる情報の検索プロセスを自動化および統合するのに役立ちます。

多くの公共データベースは既に広範囲にリンクされており、他のデータベースの補完情報に容易にアクセスできます。例えば、GenbankとPDBは密接に連携しています。しかし、特定の研究グループが組織・ホストする専門ツールは、対象が狭かったり、頻繁に変更されたり、共通ファイル形式のカスタムバージョンを使用したりするため、こうしたリンク構築への統合が困難な場合があります。配列プロファイリングツールの利点としては、これらの専門ツールを複数、単一のクエリで使用し、出力を共通インターフェースで表示できること、あるツールセットやデータベース検索の出力を別のツールセットやデータベース検索の入力に活用できること、ホスティングやコンパイルの義務を単一の中央リポジトリではなく、研究グループや研究機関のネットワークに分散できることなどが挙げられます。

キーワードベースのプロファイリングツール

現在ウェブ上で利用可能なプロファイリングツールのほとんどはこのカテゴリーに分類されます。ユーザーはサイト/ツールにアクセスし、ジストロフィー、糖尿病などのキーワード、GenBankアクセッション番号、PDB IDなどの関連情報を入力します。検索による関連ヒットはすべて、各ツールの主な焦点に固有の形式で表示されます。キーワード検索に基づくプロファイリングツールは、本質的にバイオインフォマティクス作業に高度に特化した検索エンジンであり、 Googleなどの従来の検索エンジンで発生する可能性のある無関係または非学術的なヒットの混乱を排除します。ほとんどのキーワードベースのプロファイリングツールは、柔軟なタイプのキーワード入力、インデックス付きデータベースからのアクセッション番号、および従来のキーワード記述子を許可しています

各プロファイリングツールには、それぞれ独自の焦点と関心領域があります。例えば、NCBIの検索エンジンEntrezは、ヒットをカテゴリ別に分類しています。これにより、タンパク質構造情報を探しているユーザーは、対応する構造を持たない配列を除外できます。一方、特定のテーマに関する文献を閲覧したいユーザーは、遺伝子や配列の検索結果に煩わされることなく、学術雑誌に掲載された論文の抄録を閲覧できます。PubMedバイオサイエンス文献データベースは文献検索に人気のツールですが、このサービスはより一般的な Google Scholarとほぼ同等です。

Bioinformatic Harvester のようなキーワードベースのデータ集約サービスは、さまざまなサードパーティサーバーからのレポートをそのままの形式で提供するため、ユーザーは Web サイトにアクセスしたり、個々のコンポーネントサービスごとにソフトウェアをインストールしたりする必要がありません。これは、さまざまな配列分析および操作ツールを提供するさまざまなサイトが急速に出現していることを考えると、特に貴重です。もう 1 つの集約型 Web ポータルである Human Protein Reference Database ( Hprd ) には、手動で注釈が付けられ、キュレーションされたヒトタンパク質のエントリが含まれています。したがって、提供される情報は選択的かつ包括的であり、クエリ形式は柔軟で直感的です。手動でキュレーションされたデータベースを開発する利点には、校正された資料の提示と、特定のタンパク質の責任を引き受ける「分子の権威」の概念が含まれます。ただし、欠点は、一般に更新が遅く、あまり新しいデータや議論のあるデータが含まれていない可能性があることです。

シーケンスデータに基づくプロファイラー

典型的な配列プロファイリングツールは、実際のDNA、RNA、またはタンパク質配列を入力として用いることでこれをさらに進め、ユーザーが様々なウェブベースの解析ツールにアクセスして必要な情報を取得できるようにします。このようなツールは、遺伝子シーケンサーなどの市販の実験機器に付属していることが多く、分子生物学用のソフトウェアアプリケーションとして販売されることもあります。別の公開データベースの例として、NCBIの BLAST配列検索レポートは、アライメントレポートから、そのデータベース内の他の関連情報へのリンクを提供しています（該当する情報が存在する場合）。

例えば、取得したレコードにヒトの配列が含まれている場合、そのレコードはヒトゲノムマップ上の位置につながる別のリンクを持ちます。また、3D 構造が解明された配列が含まれているレコードには、その構造データベースにつながるリンクが付きます。公共サービスツールであるSequerome は、BLAST レポート全体を、制限酵素マップ、ヌクレオチド配列のオープンリーディングフレーム解析、二次構造予測などの配列操作に関する非常に特殊なサービスを提供する多数のサードパーティサーバー/サイトにリンクします。このツールには、ユーザーが実行した操作の調査ログを維持するという追加の利点があり、これは「メール」、「印刷」または「保存」機能を使用して簡単にアーカイブできます。したがって、さまざまな調査ツールを使用して配列を調査し、プロジェクトを完了するまでの操作全体を、1 つのブラウザーインターフェイス内で完了できます。したがって、次世代の配列プロファイリングツールには、研究者とオンラインで共同作業を行い、プロジェクトログや研究ツールを共有したり、配列解析や実験結果に注釈を付けたり、配列データセットの処理をカスタマイズ・自動化したりする機能が含まれることになります。InstaSeqは、Googleが提供する検索ツールで、ユーザーは配列を直接入力してワールドワイドウェブ全体を検索できます。この独自の検索エンジンは、GenBankなどの特定のデータベースを検索するのとは対照的です。

その結果、ユーザーは世界中のどこからでも、非公開でホストされている文書やあまり知られていないデータベースのページにアクセスできるようになります。現状では配列ベースのプロファイラーの存在は極めて少ないですが、膨大な量の配列データを複数のポータルやドメインにまたがってクロスプロセス処理する必要がある場合、その重要な役割が明らかになるでしょう。

今後の成長と方向性

遺伝子解析のためのバイオインフォマティクスツールの急増は、研究者が研究において関心のある遺伝子や遺伝子セットを特定・分類する上で役立っています。しかしながら、実質的に類似した集計・解析機能を実行するツールが多種多様であることは、新規ユーザーを混乱させ、苛立たせる原因にもなります。集計ツールによって促進される分散化により、個々の研究グループは、特定の種類のデータ分析に特化した専用サーバーを維持し、その出力が他の研究者にとって関心のある遺伝子やタンパク質に関するより大規模なレポートにまとめられることを期待しています。

マイクロアレイ実験、ツーハイブリッドスクリーニング、その他のハイスループット生物学的実験によって生成されるデータは膨大で、手作業での解析は困難です。また、多様なタンパク質構造を迅速に解明することを目指す構造ゲノミクス共同研究の取り組みにより、配列データベースと構造データベース、そしてポータルの統合の必要性が高まっています。より包括的でユーザーフレンドリーな配列プロファイリング手法の開発に向けたこうした動きにより、配列プロファイリングは現在のゲノミクス研究者の間で活発な研究分野となっています。

参照

参考文献

Peri S, Navarro JD, Kristiansen TZ, et al. (2004年1月). 「プロテオミクスのための発見リソースとしてのヒトタンパク質参照データベース」 . Nucleic Acids Res . 32 (データベース号): D497–501. doi : 10.1093 /nar/gkh070 . PMC 308804. PMID 14681466
リーベルU;キンドラーB;ペッパーコック R (2004 年 8 月)。」「『ハーベスター』：ヒトタンパク質リソースの高速メタ検索エンジン」バイオインフォマティクス20 ( 12): 1962–3 . doi : 10.1093/bioinformatics/bth146 . PMID 14988114 .
Ganesan N; Bennett NF; Velauthapillai M; Pattabiraman N; Squier R; Kalyanasundaram B (2005年8月). 「BLASTアライメントレポートの配列構造解析を容易にするWebベースインターフェース」 . BioTechniques . 39 (2): 186, 188. doi : 10.2144/05392BM05 . PMID 16116790 .
Beaton J; Smith C (2005年11月). 「GoogleとPubMedの比較」 . Ann R Coll Surg Engl . 87 (6): 491–2 . doi : 10.1308/003588405X71207 . PMC 1964102. PMID 16263030 .
Hunter L; Cohen KB (2006年3月). 「生物医学言語処理：PubMedの先にあるものは何か？」 . Mol . Cell . 21 (5): 589–94 . doi : 10.1016/j.molcel.2006.02.012 . PMC 1702322. PMID 16507357 .
Ganesan N; Kalyanasundaram B; Velauthapillai M (2007年3月). 「バイオインフォマティクスデータプロファイリングツール：代謝プロファイリングへの序章」. Pac. Symp. Biocomput. : 127–32 . PMID 17990486 .