PatternHunterは、配列アライメント技術を用いた市販の相同性検索ツールソフトウェアです。2002年にBin Ma、John Tramp、Ming Liの3人の科学者によって最初に開発されました。[1] : 440 これらの科学者たちは、ゲノミクスやプロテオミクスを含む研究において多くの研究者が直面する問題を解決したいという願望に突き動かされていました。彼らは、そのような研究が、短いシードマッチを確立し、その後長くする相同性研究に大きく依存していることに気づきました。相同遺伝子の記述は、ほとんどの進化研究の不可欠な部分であり、遺伝子ファミリーの進化、ドメインとファミリーの関係を理解するために不可欠でした。[2] : 7 相同遺伝子は、2つのタンパク質または核酸配列間の類似部分または局所的な配置を確立する検索ツールを使用してのみ効果的に研究できました。 [3] : 15 相同性は、一致する配列から得られたスコア、「ミスマッチスコアとギャップスコア」によって定量化されました。[4] : 164
開発
例えば、比較ゲノミクスでは、ヒトゲノムに見られるような巨大な染色体を比較する必要がある。しかし、ゲノムデータの膨大な拡張は、相同性検索を実行するために利用可能な方法に困難をもたらす。例えば、シードサイズを大きくすると感度が低下するが、シードサイズを小さくすると計算速度が低下する。遺伝子間の相同性を決定するために、いくつかの配列アライメントプログラムが開発されている。これらには、 FASTA、BLASTファミリー、QUASAR、MUMmer、SENSEI、SIM、およびREPuterが含まれる。[1] : 440 これらは主に、塩基を他の塩基と比較するスミス・ウォーターマン・アライメント技術を使用するが、あまりにも遅い。BLASTは、後でより長いアライメントを形成するために結合する、短く正確なシードマッチを確立することによって、この技術を改良した。[5] : 737 しかし、長い配列を扱う場合、上記の技術は非常に遅く、かなりのメモリサイズを必要とする。 SENSEIは他の手法よりも効率的ですが、ギャップのないアライメントの処理に強みがあるため、他の形式のアライメントには不向きです。一方、Megablastによるアライメント結果は品質が低く、大規模な配列には適していません。MUMmerやQUASARなどの手法は、完全一致を扱うことを想定したサフィックスツリーを採用しています。しかし、これらの手法は、高い類似性を示す配列の比較にしか適用できません。上記のすべての問題に対処するには、コンピューターのリソースを過度に消費することなく、あらゆる種類の配列を効率的に処理できる、高速で信頼性の高いツールの開発が必要です。
アプローチ
PatternHunterは、最適な間隔で配置された多数のシード(小さな検索文字列)を使用します。シードを用いた検索は、ヒットが確立された箇所のみで相同性を判定するため、非常に高速です。検索文字列の感度は、隣接する文字列間の間隔に大きく左右されます。大きなシードでは孤立した相同性を見つけることができませんが、小さなシードでは多数の任意のヒットが生成され、計算が遅延します。PatternHunterは、検索文字列間の最適な間隔を提供することで、この点において微妙なバランスを実現しています。BLASTが連続するk文字をシードとして使用するのに対し、 PatternHunterはk文字(k = 11)を交互にシードとして使用します。PatternHunter分析の最初の段階はフィルタリングフェーズで、プログラムは最も有利なパターンで示されるk個の交互のポイントで一致を探します。[6] : 11 2番目の段階はアライメントフェーズで、これはBLASTと同じです。さらに、PatternHunterでは一度に複数のシードを使用することが可能です。これにより、ツールの速度に影響を与えることなく感度を向上させることができます。
速度
PatternHunterはあらゆる種類の配列を短時間で解析します。現代のコンピューターでは、原核生物のゲノムを処理するのに数秒、シロイヌナズナの配列を処理するのに数分、ヒト染色体を処理するのに数時間かかります。[1] : 440 他のツールと比較すると、PatternHunterはBLASTやMega BLASTよりも約100倍高速です。[7]これらの速度は、 Smith-Watermanアルゴリズムで達成される速度の3000倍です。さらに、このプログラムは検索パラメータをカスタマイズできるユーザーフレンドリーなインターフェースを備えています
感度
感度に関しては、PatternHunterでは従来のBLAST検索と同じ速度を維持しながら、最適な感度を達成することが可能となります
仕様
PatternHunterの設計にはJavaテクノロジーが使用されています。そのため、Java 1.4環境にインストールすれば、プログラムはスムーズに動作します。[7]
今後の進歩
相同性検索は非常に長い手順であり、多くの時間を必要とします。データベースの膨大なサイズと使用されるクエリが非常に小さいため、DNA-DNA検索だけでなく、翻訳されたDNA-タンパク質検索の処理にも依然として課題が残っています。PatternHunterは、感度を変えることなくDNA-タンパク質検索を100倍高速化するアップグレード版PatternHunter IIに改良されました。しかし、BLASTの速度を維持しながらSmith-Watermanツールの高い感度を達成するためにPatternHunterを改良する計画があります。tBLASTxを高速化することを目的とした新しい翻訳版PatternHunterも開発段階にあります。 [4] : 174
参考文献
- ^ abc Ma, Bin; Tromp, John; Li, Ming (2002). 「PatternHunter: より高速で高感度な相同性検索」.バイオインフォマティクス. 18 (2): 440– 445. doi : 10.1093/bioinformatics/18.3.440 . PMID 11934743.
- ^ Joseph, Jacob M. (2012). 相同遺伝子ファミリーの同定と研究、特にマルチドメインファミリーの精度に重点を置いた研究(PDF) (博士号). カーネギーメロン大学.
- ^ ペブスナー、ジョナサン(2009年)『バイオインフォマティクスと機能ゲノミクス』(第2版)ニュージャージー州:ワイリーブラックウェル、ISBN 9780470451489。
- ^ ab Li, M.; Ma, B.; Kisman, D.; Tromp, J. (2003). 「PatternHunter II:高感度かつ高速な相同性検索」.ゲノムインフォマティクス. 国際ゲノムインフォマティクス会議. 14 : 164–175 . PMID 15706531
- ^ Pearson, WR (1991). 「タンパク質配列ライブラリの検索:Smith-Waterman法とFASTA法の感度と選択性の比較」. Genomics . 11 (3): 635– 650. doi :10.1016/0888-7543(91)90071-L. PMID 1774068.
- ^ Zhang, Louxin. 「シーケンスデータベース検索テクニック I: BlastおよびPatternHunterツール」(PDF) . 2013年12月6日閲覧。
- ^ ab "PatternHunter Brochure" (PDF) . 2013年12月11日時点のオリジナル(PDF)からアーカイブ。 2013年11月30日閲覧。