| ジェンスキャン | |
|---|---|
| 開発者 | クリストファー・バージ |
| 入手可能な | 英語 |
| タイプ | バイオインフォマティクスツール |
| Webサイト | genes.mit.edu/GENSCANinfo.html |
バイオインフォマティクスにおいて、GENSCANはゲノムDNA中の遺伝子構造全体を同定するプログラムです。G HMMベースのプログラムであり、様々な生物のゲノム配列における遺伝子の位置とエクソン・イントロン境界を予測するために使用できます。GENSCANのウェブサーバーはMITにあります。[1]
GENSCANは、スタンフォード大学のサミュエル・カーリンの研究グループのクリストファー・バージによって開発されました。[2] [3] [4]
歴史
2001年、ヒト遺伝子予測の世界は比較ゲノミクスの分野に進出しました。その結果、GENSCANをより高精度に改良したTWINSCANと呼ばれるプログラムが開発されました。その後、GHMMモデルをさらに改良したN-SCANなどのプログラムも開発されました。[5]
2002年時点で、GENSCANはバイオインフォマティクスの分野で人気のツールであり続け、カリフォルニア大学サンタクルーズ校とEnsembl ゲノムブラウザで公開されたゲノムの標準機能となった。[5]
実装
ゲノムモデル
GENSCANのゲノム配列モデルを開発する際の主な目標は、真核生物遺伝子の個々の機能単位(エクソン、イントロン、スプライス部位、プロモーターなど)を構成する一般的な特性と特定の特性の両方を特定することであった。遺伝子や遺伝子ファミリーの転写やスプライシングに関連するシグナル(TATAボックスなど)ではなく、タンパク質コード遺伝子の大部分を処理する一般的な転写、スプライシング、翻訳機構によって認識可能な特性に特に重点が置かれた。さらに、特定のタンパク質モチーフやデータベース相同性情報のモデルではなく、コード領域の一般的な3周期5次マルコフモデルが使用される。さらに、このモデルは、ヒトゲノムの構成領域間の構造的および密度的な違いを考慮している。[3]
これらの要素を用いることで、GENSCANはタンパク質配列データベース内の類似遺伝子を参照することなく動作します。GENSCANによって生成される予測は、相同性に基づく遺伝子同定法(例えば、BLASTXを用いたタンパク質データベースへのクエリ)によって得られる予測を補完します。全体として、GENSCANで使用されるモデルの構造は、一般隠れマルコフモデル[3]に類似しています。
特徴
GENSCANの実装は、他のプログラムとは複数の点で異なります。注目すべき違いは、GENSCANが二本鎖DNAに特化して両方の鎖に存在する遺伝子を同時に解析するゲノム配列モデルを採用している点です。また、GENSCANは、当時の他のプログラムのように単一の遺伝子配列と完全な遺伝子配列のみを解析するのとは異なり、遺伝子が部分的に存在する場合や遺伝子が存在しない場合でもゲノムを解析できます。これら2つの要素が、GENSCANが特に長いヒトゲノムの解析に有用である理由です。さらに、GENSCANは「最大依存性分解(Maximal Dependence Decomposition)」という概念を採用しており、DNAおよびタンパク質配列中の機能シグナルをモデル化することで、シグナル位置間の依存性をプログラムで考慮することが可能になります。GENSCANでは、この概念に基づいてドナースプライスシグナルのモデルが生成され、pre-mRNA配列中のドナースプライス部位の認識メカニズムに関連する依存性を捉えます。[3]
GENSCANは、フォワードバックワードアルゴリズムを使用して、それぞれの予測の精度を計算する機能を備えています。[3]
より長い配列におけるエクソンおよび遺伝子の位置に関して、ヒト遺伝子の構造と全体的な構成を予測することは、GENSCANのさらに有用な構成要素である。これにはいくつかの異なる機能が含まれる。その一つは、経験的に生成されたモデルパラメータセットを用いて、ヒトゲノム中のC + G領域間の遺伝子構造と構成の違いを捉える能力である。もう一つの派生機能は、前述のように、部分遺伝子や二本鎖DNAを扱う能力に加えて、配列中の複数の遺伝子を予測する能力である。最後に、これによりGENSCANは、ドナーおよびアクセプタースプライス部位の新しいモデルを用いて、シグナル位置間の依存関係を捉えることも可能になる。[3]
効率
GENSCANの実行時間は、現実的なサイズのシーケンス(最低数キロビット)が提供された場合、ほぼ線形に増加しますが、最悪の場合は2乗になります。[3]
補足的な使用
GENSCANは、他のゲノム予測プログラムと同様に、他のプログラムと完全に一致する結果を生成するわけではありません。これは、アルゴリズム、パラメータ、トレーニングセットの違いなど、様々な要因によるものです。そのため、GENSCANは、2つの遺伝子予測プログラムの結果を組み合わせる際に利用されてきました。組み合わせたプログラムのうちの1つが配列予測に自信がある場合は、その配列が使用されます。一方、どちらのプログラムも予測に自信がない場合は、両方のプログラムが一致した場合にのみ、予測された配列が使用されます。[6]
正確さ
GENSCANの精度を評価するため、短いデータセットを用いたテストが実施されました。1つのテストは、570個の脊椎動物のマルチエクソン遺伝子配列を含むBurset/Guigóデータセットを用いて実施されました。このテストから得られたデータは、同じデータセットを用いた他のプログラムのテストから得られたデータと合わせて、以下の表に示されています。表から、GENSCANはヌクレオチドとエクソンの両方を含む配列の予測において、競合製品よりも概ね高い精度を示すことがわかります。[3]
| プログラム | シーケンス | ヌクレオチド感受性 | ヌクレオチド特異性 | ヌクレオチド近似相関 | ヌクレオチド相関係数 | エクソン感受性 | エクソン特異性 | エクソン平均 | 見逃されたエクソン | 間違ったエクソン |
|---|---|---|---|---|---|---|---|---|---|---|
| ジェンスキャン | 570 | 0.93 | 0.93 | 0.91 | 0.92 | 0.78 | 0.81 | 0.80 | 0.09 | 0.05 |
| FGENEH | 569 | 0.77 | 0.88 | 0.78 | 0.80 | 0.61 | 0.64 | 0.64 | 0.15 | 0.12 |
| 遺伝子ID | 570 | 0.63 | 0.81 | 0.67 | 0.65 | 0.44 | 0.46 | 0.45 | 0.28 | 0.24 |
| 魔神 | 570 | 0.76 | 0.77 | 0.72 | 該当なし | 0.55 | 0.48 | 0.51 | 0.17 | 0.33 |
| ゲンラン | 570 | 0.72 | 0.79 | 0.69 | 0.71 | 0.51 | 0.52 | 0.52 | 0.21 | 0.22 |
| 遺伝子パーサー2 | 562 | 0.66 | 0.79 | 0.67 | 0.65 | 0.35 | 0.40 | 0.37 | 0.34 | 0.17 |
| グレイル2 | 570 | 0.72 | 0.87 | 0.75 | 0.76 | 0.36 | 0.43 | 0.40 | 0.25 | 0.11 |
| ソルフィンド | 561 | 0.71 | 0.85 | 0.73 | 0.72 | 0.42 | 0.47 | 0.45 | 0.24 | 0.14 |
| エクスパウンド | 570 | 0.61 | 0.87 | 0.68 | 0.69 | 0.15 | 0.18 | 0.17 | 0.33 | 0.13 |
| 遺伝子ID+ | 478 | 0.91 | 0.91 | 0.88 | 0.88 | 0.73 | 0.70 | 0.71 | 0.07 | 0.13 |
| 遺伝子パーサー3 | 478 | 0.86 | 0.91 | 0.86 | 0.85 | 0.56 | 0.58 | 0.57 | 0.14 | 0.09 |
さらに、以下の表は、 C + G含有量の範囲と生物の種類別に整理されたゲノム配列に関するGENSCANの精度を具体的に示しています。提供されたデータから、GENSCANの精度の変動はC + G含有量と生物の種類にほとんど影響されないことがわかります。これは、GENSCANが、同等のゲノム予測プログラムの結果に影響を与える可能性のある要因から独立していることをさらに示しています。[3]
| サブセット | シーケンス | ヌクレオチド感受性 | ヌクレオチド特異性 | ヌクレオチド近似相関 | ヌクレオチド相関係数 | エクソン感受性 | エクソン特異性 | エクソン平均 | 見逃されたエクソン | 間違ったエクソン |
|---|---|---|---|---|---|---|---|---|---|---|
| C + G <40 | 86 | 0.90 | 0.95 | 0.90 | 0.93 | 0.78 | 0.87 | 0.84 | 0.14 | 0.05 |
| C + G 40-50 | 220 | 0.94 | 0.92 | 0.91 | 0.91 | 0.80 | 0.82 | 0.82 | 0.08 | 0.05 |
| C + G 50-60 | 208 | 0.93 | 0.93 | 0.90 | 0.92 | 0.75 | 0.77 | 0.77 | 0.08 | 0.05 |
| C + G >60 | 56 | 0.97 | 0.89 | 0.90 | 0.90 | 0.76 | 0.77 | 0.76 | 0.07 | 0.08 |
| 霊長類 | 237 | 0.96 | 0.94 | 0.93 | 0.94 | 0.81 | 0.82 | 0.82 | 0.07 | 0.05 |
| げっ歯類 | 191 | 0.90 | 0.93 | 0.89 | 0.91 | 0.75 | 0.80 | 0.78 | 0.11 | 0.05 |
| 非母性。垂直。 | 72 | 0.93 | 0.93 | 0.90 | 0.93 | 0.81 | 0.85 | 0.84 | 0.11 | 0.06 |
GENSCANの精度に関する別のテストとして、GeneParserの2つのデータセットを用いて、以前のGeneParserテストセットとアミノ酸の一致率が25%を超える遺伝子をすべて除去したテストが行われた。このテストと、他のプログラムで実施した同じテストの結果データを以下の表に示す。前述のBurset/Guigóデータセットを用いたGENSCANの精度とGeneParserデータセットの精度の間にはほとんど差がないことがわかる。しかし、変動が大きいデータポイント(例えば、GeneParserセットIIではC + Gヌクレオチド数が多い場合に98%のCCが得られたのに対し、Burset/GuigóではC + Gヌクレオチド数が60を超える場合に90%のCCが得られた)は、GeneParserデータセットのサンプルサイズがはるかに小さいことが原因である可能性がある。前述の3つのデータセットを用いたテストでは、それぞれの結論を導き出すのに十分な情報が得られている。しかしながら、これらのデータセットは現実的なサイズではないため、その信頼性と範囲には当然疑問が残る。[3]
| プログラム | 遺伝子ID I | 遺伝子ID II | グレイル3 I | グレイル3 II | GeneParser2 I | ジーンパーサー2 II | ジェンスキャンI | ジェンスキャンII |
|---|---|---|---|---|---|---|---|---|
| すべてのシーケンス | ||||||||
| 相関 | 0.69 | 0.55 | 0.83 | 0.75 | 0.78 | 0.80 | 0.93 | 0.93 |
| 感度 | 0.69 | 0.50 | 0.83 | 0.68 | 0.87 | 0.82 | 0.98 | 0.95 |
| 特異性 | 0.77 | 0.75 | 0.87 | 0.91 | 0.76 | 0.86 | 0.90 | 0.94 |
| エクソンが正しい | 0.42 | 0.33 | 0.52 | 0.31 | 0.47 | 0.46 | 0.79 | 0.76 |
| エクソンの重複 | 0.73 | 0.64 | 0.81 | 0.58 | 0.87 | 0.76 | 0.96 | 0.91 |
| ハイC + G | ||||||||
| 相関 | 0.65 | 0.73 | 0.88 | 0.80 | 0.89 | 0.71 | 0.94 | 0.98 |
| 感度 | 0.72 | 0.85 | 0.87 | 0.80 | 0.90 | 0.65 | 1.00 | 0.98 |
| 特異性 | 0.73 | 0.73 | 0.95 | 0.88 | 0.93 | 0.87 | 0.91 | 0.98 |
| エクソンが正しい | 0.38 | 0.43 | 0.67 | 0.50 | 0.64 | 0.57 | 0.76 | 0.64 |
| エクソンの重複 | 0.80 | 0.86 | 0.89 | 0.79 | 0.96 | 0.79 | 1.00 | 0.93 |
| 中音C + G | ||||||||
| 相関 | 0.67 | 0.52 | 0.83 | 0.75 | 0.75 | 0.82 | 0.93 | 0.94 |
| 感度 | 0.65 | 0.47 | 0.86 | 0.68 | 0.86 | 0.84 | 0.97 | 0.95 |
| 特異性 | 0.77 | 0.76 | 0.84 | 0.91 | 0.70 | 0.87 | 0.90 | 0.95 |
| エクソンが正しい | 0.37 | 0.29 | 0.51 | 0.32 | 0.41 | 0.46 | 0.79 | 0.79 |
| エクソンの重複 | 0.67 | 0.62 | 0.83 | 0.28 | 0.84 | 0.79 | 0.96 | 0.93 |
| 低C + G | ||||||||
| 相関 | 0.81 | 0.62 | 0.62 | 0.62 | 0.72 | 0.67 | 0.92 | 0.81 |
| 感度 | 0.82 | 0.56 | 0.51 | 0.45 | 0.79 | 0.71 | 0.93 | 0.80 |
| 特異性 | 0.85 | 0.71 | 0.87 | 0.89 | 0.75 | 0.67 | 0.94 | 0.84 |
| エクソンが正しい | 0.80 | 0.47 | 0.25 | 0.16 | 0.40 | 0.37 | 0.85 | 0.68 |
| エクソンの重複 | 0.85 | 0.63 | 0.55 | 0.42 | 0.85 | 0.58 | 0.85 | 0.74 |
1997年、GENSCANは以前の遺伝子予測プログラムよりも高い精度を示すことが確認されました。しかし、GENSCANは現実的なデータセットにおいて遺伝子の10~15%しか正確に予測できないことが示されたため、依然として研究が必要でした。[5]このような不正確さのため、GENSCANなどのプログラムによる予測結果は、相補DNA配列、 EST配列タグ(Expressed sequence tag)、または既知のタンパク質配列と比較して検証する必要があります。[6]
参考文献
- ^ http://genes.mit.edu/GENSCAN.html 2013年9月6日アーカイブWayback Machine MITのGENSCAN Webサーバー
- ^ Burge, CB (1998) pre-mRNAスプライシングシグナルにおける依存性のモデリング. Salzberg, S. , Searls, D., Kasif, S.編. Computational Methods in Molecular Biology, Elsevier Science, Amsterdam, pp. 127-163. ISBN 978-0-444-50204-9
- ^ abcdefghijklm Burge, Christopher ; Karlin, Samuel (1997). 「ヒトゲノムDNAにおける完全な遺伝子構造の予測」(PDF) . Journal of Molecular Biology . 268 (1): 78– 94. CiteSeerX 10.1.1.115.3107 . doi :10.1006/jmbi.1997.0951. PMID 9149143. 2015年6月20日時点のオリジナル(PDF)からのアーカイブ。
- ^ Burge, C. ; Karlin, S. (1998). 「ゲノムDNA中の遺伝子の探索」Current Opinion in Structural Biology . 8 (3): 346– 354. doi : 10.1016/S0959-440X(98)80069-9 . PMID 9666331.
- ^ abc Flicek, Paul (2007). 「遺伝子予測:比較と対比」.ゲノム生物学. 8 (12): 233. doi : 10.1186/gb-2007-8-12-233 . ISSN 1474-760X. PMC 2246255. PMID 18096089 .
- ^ ab Rogic, S.; Ouellette, BFF; Mackworth, AK (2002-08-01). 「2つの遺伝子探索プログラムからの予測を組み合わせることによる遺伝子認識精度の向上」.バイオインフォマティクス. 18 (8): 1034– 1045. doi : 10.1093/bioinformatics/18.8.1034 . ISSN 1367-4803. PMID 12176826.