BLAST(バイオテクノロジー)

ブラスト
原作者スティーブン・アルトシュルウォーレン・ギッシュウェッブ・ミラーユージン・マイヤーズデビッド・リップマン
開発者NCBI
安定版リリース
2.16.0+ [ 1 ] / 2024年6月25日 ( 2024-06-25 )
書かれたCC++ [ 2 ]
オペレーティング·システムUNIXLinuxMacMS-Windows
タイプバイオインフォマティクスツール
ライセンスパブリックドメイン
Webサイトブラスト.ncbi .nlm .nih .gov /ブラスト.cgi

バイオインフォマティクスにおいて、BLAST基本局所アライメント検索ツール[ 3 ]は、タンパク質のアミノ酸配列、DNAヌクレオチド配列、および/またはRNA配列など、主要な生物学的配列情報を比較するためのアルゴリズムおよびプログラムです。BLAST検索により、研究者は対象のタンパク質またはヌクレオチド配列(クエリと呼ばれる)を配列のライブラリまたはデータベースと比較し、クエリ配列と特定のしきい値以上に類似するデータベース配列を特定できます。たとえば、マウスで未知の遺伝子が発見された後、科学者は通常、ヒトゲノムのBLAST検索を実行し、ヒトが類似の遺伝子を持っているかどうかを確認します。BLASTは、配列の類似性に基づいて、マウスの遺伝子に類似するヒトゲノムの配列を特定します。

背景

BLASTは、配列検索に広く利用されているバイオインフォマティクスプログラムです。[ 4 ]バイオインフォマティクス研究における根本的な問題に取り組んでいます。BLASTが用いるヒューリスティックアルゴリズムは、Smith-Waterman法などの手法と比較して、大規模な検索において高速です。この速度重視は、現在利用可能な巨大なゲノムデータベースにおいてこのアルゴリズムを実用的にするために不可欠ですが、後続のアルゴリズムはさらに高速化される可能性があります。

発展と歴史

BLASTプログラムは、NIHのユージン・マイヤーズ、スティーブン・アルトシュル、ウォーレン・ギッシュ、デイビッド・J・リップマン、そしてウェッブ・ミラーによって設計され、1990年にJ. Mol. Biol. 誌に掲載されました。BLASTは 、タンパク質およびDNA配列の類似性検索のために以前に開発されたプログラムであるFASTAを基盤としています。サミュエル・カーリンスティーブン・アルトシュルによって開発された新しい確率モデルが組み込まれています。[ 5 ]彼らは「ある生物の既知のDNA配列と別の生物のDNA配列との間の類似性を推定する方法」を提案し、[ 3 ]彼らの研究は「BLASTの統計的基礎」と評されています。[ 6 ]その後、アルトシュル、ギッシュ、ミラー、マイヤーズ、そしてリップマンはBLASTプログラムを設計・実装し、 1990年にJournal of Molecular Biology誌に掲載され、それ以来10万回以上引用されています。[ 7 ]

アルゴリズム

BLASTはほとんどの場合、 Smith-Waterman法の実装よりも高速ですが、Smith-Watermanアルゴリズムのように「クエリ配列とデータベース配列の最適なアライメントを保証する」ことはできません。Smith-Watermanアルゴリズムは、以前の最適化手法であるNeedleman-Wunschアルゴリズムを拡張したもので、Needleman -Wunschアルゴリズムは、可能な限り最適なアライメントを見つけることが保証された最初の配列アライメントアルゴリズムでした。しかし、これらの最適化アルゴリズムに必要な時間とメモリ量は、BLASTの要件をはるかに上回ります。

BLASTは、配列中のより重要なパターンのみを検索することでFASTAよりも時間効率が高く、感度も同等です。これは、以下で紹介するBLASTのアルゴリズムを理解することでさらに実感できます。

研究者が BLAST を使用して回答する他の質問の例は次のとおりです。

  • アミノ酸配列が既知の特定のタンパク質と系統的に関連するタンパク質を持つ細菌種はどれか
  • 他にどのような遺伝子が、今決定されたような構造やモチーフを示すタンパク質をコードするのか?

BLAST は、近似配列マッチングを必要とする他のアルゴリズムの一部としてもよく使用されます。

BLASTはNCBIウェブサイトから利用可能です。検索クエリ配列と対象データベースに応じて、様々な種類のBLASTが利用可能です。代替実装としては、AB-BLAST(旧称WU-BLAST)、FSA-BLAST(最終更新は2006年)、ScalaBLASTなどがあります。[ 8 ] [ 9 ]

アルトシュルらによる原著論文[ 7 ]は、1990年代に発表された論文の中で最も引用数が多かった。[ 10 ]

入力

入力配列(FASTAまたはGenbank形式)、検索するデータベース、スコアリングマトリックスなどのその他のオプションパラメータ。[ 11 ]

出力

BLASTの出力は様々な形式で提供されます。これらの形式には、HTMLプレーンテキストXML形式が含まれます。NCBIのウェブページでは、デフォルトの出力形式はHTMLです。NCBIでBLASTを実行すると、ヒットを示すグラフ形式、ヒットの配列識別子とスコア関連データを示す表、対象配列とヒットのアライメント、および対応するBLASTスコアが示されます。これらの形式の中で最も読みやすく、最も有益なのはおそらく表形式でしょう。

NCBIなどの一般公開されているデータベースでは入手できない、あるいは独自の配列を検索したい場合は、BLASTプログラムを無料でダウンロードできます。BLAST+実行ファイルから入手できます。また、市販のプログラムも販売されています。データベースはNCBIのサイトとIndex of BLAST databases(FTP)から入手できます。

プロセス

BLAST は、ヒューリスティックな手法を用いて、2 つの配列間の短い一致を見つけることで、類似配列を見つけます。類似配列を見つけるこのプロセスは、シーディングと呼ばれます。この最初の一致の後に、BLAST はローカルアライメントの作成を開始します。配列の類似性を見つけようとする際には、単語と呼ばれる共通文字セットが非常に重要です。たとえば、配列に GLKFA という文字列が含まれているとします。BLAST が通常の条件下で実行されていた場合単語のサイズは 3 文字になります。この場合、指定された文字列を使用して検索される単語は GLK、LKF、および KFA になります。BLAST のヒューリスティックアルゴリズムは、対象の配列とデータベースのヒット配列 (複数可) の間にある共通する 3 文字の単語をすべて見つけます。この結果は、アライメントを構築するために使用されます。対象の配列の単語を作成した後、残りの単語もアセンブルされます。これらの単語は、スコアリングマトリックスを使用して比較した場合に、 少なくともしきい値Tのスコアを持つという要件を満たす必要があります。

BLAST検索で一般的に用いられるスコアリングマトリックスの一つはBLOSUM62 [ 12 ]ですが、最適なスコアリングマトリックスは配列の類似性に依存します。単語と近傍単語の両方がアセンブル・コンパイルされると、それらはデータベース内の配列と比較され、一致するものが検索されます。閾値スコアTは、特定の単語がアライメントに含まれるかどうかを決定します。シーディングが行われると、わずか3残基長のアライメントは、BLASTで使用されるアルゴリズムによって両方向に拡張されます。拡張されるたびに、アライメントのスコアが増加または減少します。このスコアが事前に設定されたTよりも高い場合、アライメントはBLASTの結果に含まれます。しかし、このスコアが事前に設定されたTよりも低い場合、アライメントの拡張は停止され、アライメントの不十分な領域がBLASTの結果に含まれなくなります。Tスコアを増加させると、検索に利用できる空間が制限され、近傍単語の数が減少する一方で、BLASTの処理速度が速くなることに注意してください

アルゴリズム

BLASTを実行するには、検索対象となるクエリ配列と、検索対象となる配列(ターゲット配列とも呼ばれます)または複数のそのような配列を含む配列データベースが必要です。BLASTは、クエリ配列内の部分配列に類似する部分配列をデータベースから検索します。通常の使用法では、クエリ配列はデータベースよりもはるかに小さく、例えば、クエリが1,000ヌクレオチドであるのに対し、データベースは数十億ヌクレオチドに及ぶ場合があります。

BLAST の基本的な考え方は、統計的に有意なアラインメントには高スコアのセグメントペア (HSP) が含まれていることが多いというものである。BLAST は、スミス-ウォーターマンアルゴリズムを近似するヒューリスティックなアプローチを使用して、クエリ配列とデータベース内の既存の配列との間で高スコアの配列アラインメントを検索する。しかし、網羅的なスミス-ウォーターマンアプローチは、 GenBankなどの大規模なゲノムデータベースを検索するには遅すぎる。そのため、BLAST アルゴリズムでは、スミス-ウォーターマンアルゴリズムよりも精度は劣るものの、50 倍以上高速なヒューリスティックなアプローチを使用している。 [ 13 ] BLAST の速度と比較的良好な精度は、BLAST プログラムの技術革新の 1 つである。アルゴリズムの主な手順には、複雑性の低い領域のフィルタリング、高スコアの単語の一致の識別、およびアラインメントの統計的評価が含まれる。

BLASTアルゴリズム(タンパク質からタンパク質への検索)の概要は次のとおりです。[ 13 ]

  1. クエリ配列内の複雑度の低い領域または配列の繰り返しを削除します。
    「低複雑性領域」とは、少数の要素で構成される配列の領域を指します。これらの領域は高いスコアを示す可能性があり、データベース内の重要な配列をプログラムが見つけるのに混乱を招く可能性があるため、除外する必要があります。これらの領域は、タンパク質配列の場合はX、核酸配列の場合はNでマークされ、BLASTプログラムによって無視されます。低複雑性領域を除外するために、タンパク質配列にはSEGプログラム、DNA配列にはDUSTプログラムが使用されます。一方、タンパク質配列中のタンデムリピートをマスクするには、XNUプログラムが使用されます。
  2. クエリ配列のk文字の単語リストを作成します。
    例えばk = 3の場合、クエリタンパク質配列中の長さ3の単語( DNA配列の場合、 kは通常11)を、クエリ配列の最後の文字が含まれるまで「順番に」並べます。この方法は図1に示されています。
    図1 k文字のクエリワードリストを作成する方法。[ 14 ]
  3. 一致する可能性のある単語をリストします。
    このステップは、BLAST と FASTA の主な違いの 1 つです。FASTA は、ステップ 2 でリストされたデータベースとクエリ配列内のすべての共通単語を考慮しますが、BLAST は高スコアの単語のみを考慮します。スコアは、ステップ 2 のリスト内の単語をすべての 3 文字の単語と比較することによって作成されます。スコアリング マトリックス (置換マトリックス) を使用して各残基ペアの比較をスコアリングすると、3 文字の単語に対して 20^3 の可能な一致スコアがあります。たとえば、BLOSUM62重み付けスキームでは、PQG を PEG および PQA と比較することによって得られるスコアはそれぞれ 15 と 12 です。DNA 単語の場合、一致は +5、不一致は -4、または +2 と -3 とスコア付けされます。その後、近傍単語スコアしきい値Tを使用して、一致する可能性のある単語の数を減らします。しきい値Tよりも高いスコアの単語は、一致する可能性のある単語のリストに残り、スコアが低い単語は破棄されます。たとえば、T が 13 の場合、PEG は保持されますが、PQA は破棄されます。
  4. 残った高得点の単語を効率的な検索ツリーに整理します。
    これにより、プログラムは高得点の単語をデータベースのシーケンスと迅速に比較できるようになります。
  5. クエリシーケンス内のk文字の単語ごとに手順 3 から 4 を繰り返します。
  6. データベースのシーケンスをスキャンして、残りの高得点の単語と完全に一致するものを探します。
    BLASTプログラムは、データベース配列をスキャンし、各位置における残りの高スコア単語(PEGなど)を探します。完全一致が見つかった場合、この一致はクエリ配列とデータベース配列間のギャップのないアライメントの候補として使用されます。
  7. 完全一致を高得点セグメントペア (HSP) まで拡張します。
    • BLASTのオリジナルバージョンは、クエリとデータベース配列間のアライメントを、完全一致が発生した位置から左右方向に長く伸長させます。伸長は、HSPの累積スコアが減少し始めるまで止まりません。簡略化した例を図2に示します。
      図2 完全一致を拡張するプロセス。生物学的配列解析I、ゲノム解析の最新トピックス[2]より引用。
      図3 完全一致の位置。
    • 時間を節約するために、BLASTの新しいバージョンであるBLAST2またはギャップドBLASTが開発されました。BLAST2は、配列類似性検出の感度を同等に保つために、近傍単語スコアの閾値を低く設定しています。そのため、ステップ3の一致候補単語リストは長くなります。次に、図3の同じ対角線上で互いに距離A以内にある完全一致領域を、より長い新しい領域として結合します。最後に、新しい領域は元のBLASTと同じ方法で拡張され、拡張された領域のHSP(高スコアセグメントペア)スコアは、以前と同様に置換マトリックスを用いて作成されます。
  8. 考慮に値するほどスコアが高いデータベース内の HSP をすべてリストします。
    経験的に決定されたカットオフスコアSよりも高いスコアを持つHSPをリストアップします。ランダム配列の比較によってモデル化されたアライメントスコアの分布を調べることで、残りのHSPの有意性を保証するのに十分な値を持つカットオフスコアSを決定できます。
  9. HSP スコアの重要性を評価します。
    BLASTは次に、ガンベル極値分布(EVD)を用いて各HSPスコアの統計的有意性を評価する。(2つのランダム配列間のスミス・ウォーターマン局所アライメントスコアの分布はガンベルEVDに従うことが証明されている。ギャップを含む局所アライメントでは証明されていない。)ガンベルEVDによれば、スコアSがx以上となる 確率pは次式で与えられる。
    pS×1経験eλ×μ{\displaystyle p\left(S\geq x\right)=1-\exp \left(-e^{-\lambda \left(x-\mu \right)}\right)}
    どこ
    μログKメートルnλ{\displaystyle \mu ={\frac {\log \left(Km'n'\right)}{\lambda }}\;}
    統計パラメータと は、クエリ配列とデータベース配列の多数のシャッフル版(グローバルシャッフルまたはローカルシャッフル)のギャップなしローカルアライメントスコアの分布を、ガンベル極値分布に当てはめることによって推定されます。 と は、置換行列、ギャップペナルティ、および配列構成(文字頻度)に依存することに注意してください。とは、それぞれクエリ配列とデータベース配列の有効長です。元の配列長は、エッジ効果(クエリ配列またはデータベース配列の末端付近でアライメントが開始されると、最適なアライメントを構築するのに十分な配列がない可能性が高い)を補正するために、有効長まで短縮されます。これらは次のように計算できます。 λ{\displaystyle \lambda}K{\displaystyle \mathrm {K} }λ{\displaystyle \lambda}K{\displaystyle \mathrm {K} }メートル{\displaystyle m'}n{\displaystyle n'}
    メートルメートルlnKメートルnH{\displaystyle m'\approx m-{\frac {\ln Kmn}{H}}\;}
    nnlnKメートルnH{\displaystyle n'\approx n-{\frac {\ln Kmn}{H}}\;}
    ここで、は2つのランダムな配列のアラインメントにおける、アラインメントされた残基ペアあたりの平均期待スコアである。AltschulとGishは、BLOSUM62を置換マトリックスとして用いた、ギャップのないローカルアラインメントの典型的な値として、、、およびを与えた。有意性を評価するために典型的な値を用いる方法はルックアップテーブル法と呼ばれるが、正確ではない。データベースマッチの期待スコアEは、無関係なデータベース配列が偶然にxよりも高いスコアSを得る回数である。D配列のデータベースを検索する際に得られる期待スコアEは、次のように与えられる。 H{\displaystyle \mathrm {H} }λ0.318{\displaystyle \lambda =0.318}K0.13{\displaystyle \mathrm {K} =0.13}H0.40{\displaystyle \mathrm {H} =0.40}
    E1eps>×D{\displaystyle E\approx 1-e^{-p\left(s>x\right)D}}
    さらに、のとき、Eはポアソン分布で次のように近似できる。 p<0.1{\displaystyle p<0.1}
    EpD{\displaystyle E\approx pD}
    ギャップのないローカルアライメントにおけるHSPスコアの有意性を評価するこの期待値(期待値「E」(Eスコア、E値、e値とも呼ばれる)は、BLASTの結果に報告されます。ここで示す計算は、ギャップのあるアライメント(後述)を作成する場合など、個々のHSPが結合される場合、統計パラメータの変動により修正されます。
  10. 2 つ以上の HSP 領域を長いアラインメントにします。
    場合によっては、1 つのデータベース シーケンス内に、より長いアラインメントにできる 2 つ以上の HSP 領域が見つかることがあります。これは、クエリとデータベース シーケンスの関係性に関する追加の証拠となります。新たに結合された HSP 領域の重要性を比較する方法には、ポアソン法とスコア合計法の 2 つがあります。スコアのペアがそれぞれ (65, 40) と (52, 45) である 2 つの結合された HSP 領域があるとします。ポアソン法では、スコアが最も低いセット (45>40) に高い重要性を与えます。ただし、スコア合計法では、65+40 (105) が 52+45 (97) より大きいため、最初のセットが優先されます。オリジナルの BLAST ではポアソン法が使用され、ギャップ BLAST と WU-BLAST ではスコア合計法が使用されます。
  11. クエリと一致する各データベース配列のギャップのある Smith-Waterman ローカルアラインメントを表示します。
    • オリジナルの BLAST では、1 つのデータベース シーケンスに複数の HSP が見つかった場合でも、最初に見つかった HSP を個別に含むギャップのないアラインメントのみが生成されます。
    • BLAST2は、最初に発見されたHSP領域をすべて含むギャップを含む単一のアライメントを生成します。スコアとそれに対応するE値の計算には、適切なギャップペナルティが適用されることに注意してください。
  12. 期待スコアがしきい値パラメータEより低いすべての試合を報告します

BLASTの種類

BLASTn(ヌクレオチドBLAST)

BLASTnはヌクレオチドからヌクレオチドへの検索を提供します。これは生物間の進化的関係を特定する際に有用です。[ 15 ]

tBLASTn

tBLASTnは、タンパク質から翻訳されたDNAへの検索を行うために使用されていました。これは、EST(短いシングルリードcDNA配列)やHTG(ドラフトゲノム配列)など、完全にアノテーションされていないDNA配列中の類似のタンパク質コード領域を探す際に有用です。これらの配列には既知のタンパク質翻訳が存在しないため、tBLASTnを用いてのみ検索が可能です。[ 15 ]

ブラストx

BLASTxは、ヌクレオチド配列(6つの異なるタンパク質配列に変換可能)をタンパク質データベースと比較します。このツールは、DNA配列の読み取りフレームが不明確である場合、またはタンパク質コードに誤りを引き起こす可能性のあるエラーが含まれている場合に有用です。BLASTxは、すべてのフレームにわたるヒットの総合統計を提供するため、新しいDNA配列の初期解析に役立ちます。[ 15 ]

BLASTp
BLASTp を使用してタンパク質配列を nr データベースと比較しています。

BLASTp(Protein BLAST)は、タンパク質配列の比較に用いられます。比較したいタンパク質配列を1つ以上入力し、単一のタンパク質配列またはタンパク質配列データベースと比較することができます。これは、既存のタンパク質データベースで類似の配列を見つけることでタンパク質を同定しようとする場合に便利です。[ 15 ]

並列BLAST

分割データベースの並列BLASTバージョンはMPIPthreadsを用いて実装されており、WindowsLinuxSolarisMac OS XAIXなど様々なプラットフォームに移植されている。BLASTを並列化する一般的なアプローチとしては、クエリ分散、ハッシュテーブル分割、計算並列化、データベース分割(パーティション)などがある。データベースは同じサイズに分割され、各ノードにローカルに保存される。各クエリは全ノードで並列に実行され、全ノードからのBLAST出力ファイルがマージされて最終出力が得られる。具体的な実装としては、MPIblast、ScalaBLAST、DCBLASTなどがある。[ 16 ]

MPIblastは、データベースセグメンテーション技術を用いて計算プロセスを並列化します。[ 17 ]これにより、クラスター内の複数のノードにまたがるBLAST検索を実行する際のパフォーマンスが大幅に向上します。場合によっては、超線形的な高速化も実現可能です。そのため、MPIblastはバイオインフォマティクスで一般的に使用される大規模なゲノムデータセットに適しています。

BLASTは通常O(n)の速度で実行されます。ここでnはデータベースのサイズです。[ 18 ]検索を完了するのにかかる時間は、データベースのサイズが大きくなるにつれて直線的に増加します。MPIblastは並列処理を利用して検索を高速化します。並列計算の理想的な速度は、O(n/p)の計算量です。ここでnはデータベースのサイズ、pはプロセッサの数です。これは、ジョブがp個のプロセッサに均等に分散されていることを示しています。これは、添付のグラフに示されています。MPIblastで時々発生する超線形の高速化は、O(n/p)よりも優れた計算量で実行できます。これは、キャッシュメモリを使用して実行時間を短縮できるためです。[ 19 ]

BLASTの代替

BLASTの前身であるFASTAも、タンパク質とDNAの類似性検索に使用できます。FASTA 、タンパク質とタンパク質およびDNAデータベース、DNAとDNAおよびタンパク質データベースを比較するための同様のプログラムセットを提供するほか、順序付けされていない短いペプチドやDNA配列を扱うための追加プログラムも含まれています。さらに、FASTAパッケージは、厳密なSmith-Watermanアルゴリズムのベクトル化された実装であるSSEARCHも提供しています。FASTAはBLASTよりも速度は遅いですが、スコアリングマトリックスの範囲がはるかに広いため、特定の進化距離に合わせた検索を容易にカスタマイズできます。

An extremely fast but considerably less sensitive alternative to BLAST is BLAT (Blast Like Alignment Tool). While BLAST does a linear search, BLAT relies on k-mer indexing the database, and can thus often find seeds faster.[20] Another software alternative similar to BLAT is PatternHunter.

Advances in sequencing technology in the late 2000s has made searching for very similar nucleotide matches an important problem. New alignment programs tailored for this use typically use BWT-indexing of the target database (typically a genome). Input sequences can then be mapped very quickly, and output is typically in the form of a BAM file. Example alignment programs are BWA, SOAP, and Bowtie.

For protein identification, searching for known domains (for instance from Pfam) by matching with Hidden Markov Models is a popular alternative, such as HMMER.

An alternative to BLAST for comparing two banks of sequences is PLAST. PLAST provides a high-performance general purpose bank to bank sequence similarity search tool relying on the PLAST[21] and ORIS[22] algorithms. Results of PLAST are very similar to BLAST, but PLAST is significantly faster and capable of comparing large sets of sequences with a small memory (i.e. RAM) footprint.

For applications in metagenomics, where the task is to compare billions of short DNA reads against tens of millions of protein references, DIAMOND[23] runs at up to 20,000 times as fast as BLASTX, while maintaining a high level of sensitivity.

The open-source software MMseqs is an alternative to BLAST/PSI-BLAST, which improves on current search tools over the full range of speed-sensitivity trade-off, achieving sensitivities better than PSI-BLAST at more than 400 times its speed.[24]

Optical computing approaches have been suggested as promising alternatives to the current electrical implementations. OptCAM is an example of such approaches and is shown to be faster than BLAST.[25]

Comparing BLAST and the Smith-Waterman Process

While both Smith-Waterman and BLAST are used to find homologous sequences by searching and comparing a query sequence with those in the databases, they do have their differences.

Due to the fact that BLAST is based on a heuristic algorithm, the results received through BLAST will not include all the possible hits within the database. BLAST misses hard to find matches.

An alternative in order to find all the possible hits would be to use the Smith-Waterman algorithm. This method varies from the BLAST method in two areas, accuracy and speed. The Smith-Waterman option provides better accuracy, in that it finds matches that BLAST cannot, because it does not exclude any information. Therefore, it is necessary for remote homology. However, when compared to BLAST, it is more time consuming and requires large amounts of computing power and memory. However, advances have been made to speed up the Smith-Waterman search process dramatically. These advances include FPGA chips and SIMD technology.

For more complete results from BLAST, the settings can be changed from their default settings. The optimal settings for a given sequence, however, may vary. The settings one can change are E-Value, gap costs, filters, word size, and substitution matrix.

Note, the algorithm used for BLAST was developed from the algorithm used for Smith-Waterman. BLAST employs an alignment which finds "local alignments between sequences by finding short matches and from these initial matches (local) alignments are created".[26]

BLAST output visualization

To help users interpreting BLAST results, different software is available. According to installation and use, analysis features and technology, here are some available tools:[27]

  • NCBI BLAST service
  • general BLAST output interpreters, GUI-based: JAMBLAST, Blast Viewer, BLASTGrabber
  • integrated BLAST environments: PLAN, BlastStation-Free, SequenceServer
  • BLAST output parsers: MuSeqBox, Zerg, BioParser, BLAST-Explorer, SequenceServer
  • specialized BLAST-related tools: MEGAN, BLAST2GENE, BOV, Circoletto

Example visualizations of BLAST results are shown in Figure 4 and 5.

Fig. 4 Circos-style visualization of BLAST results generated using SequenceServer software.
Fig. 5 Length distribution of BLAST hits generated using SequenceServer software showing that the query (a predicted gene product) is longer compared to similar database sequences.

Uses of BLAST

BLAST can be used for several purposes. These include identifying species, locating domains, establishing phylogeny, DNA mapping, and comparison.

Identifying species
BLASTを用いることで、種を正確に同定したり、相同種を見つけたりすることが可能です。これは、例えば未知の種のDNA配列を扱う場合に役立ちます。
ドメインの検索
タンパク質配列を扱う場合、それを BLAST に入力して、対象の配列内の既知のドメインを見つけることができます。
系統発生の確立
BLAST で得られた結果を用いて、BLAST ウェブページから系統樹を作成できます。BLAST のみに基づく系統樹は、他の計算系統解析手法に比べて信頼性が低いため、「ファーストパス」系統解析にのみ利用してください。
DNAマッピング
既知の種を対象とし、未知の位置にある遺伝子の配列を解析する場合、BLASTは、対象となる配列の染色体上の位置をデータベース内の関連配列と比較することができます。NCBIはこの目的のためにBLASTをベースに構築された「Magic-BLAST」ツールを提供しています。[ 28 ]
比較
遺伝子を扱う場合、BLAST は 2 つの関連種に共通する遺伝子を見つけることができ、1 つの生物から別の生物への注釈をマッピングするために使用できます。
分類学の分類
BLASTは、遺伝子配列を用いて複数の分類群を既知の分類データと比較することができます。これにより、様々な種間の進化的関係を図示することができます(図6)。これは、ある遺伝子が祖先系統以外の生物に出現した場合、その遺伝子は孤児遺伝子として分類されないため、孤児遺伝子を特定するのに有用な方法です。
図 6 BLASTP 検索の出力。Bufo japonicusに見つかった遺伝子がカエル (無尾目) 系統の他の多くの種にも見つかることを示しています。
この方法は役立ちますが、相同ログを見つけるためのより正確な方法としては、ペアワイズ配列アライメントと多重配列アライメントがあります。

参照

参考文献

  1. ^ BLASTリリースノート. 米国国立生物工学情報センター. 2024年6月24日.
  2. ^ 「 BLAST開発者情報」 .blast.ncbi.nlm.nih.gov .
  3. ^ a bダグラス・マーティン (2008年2月21日). 「多才な数学者サミュエル・カーリン氏、83歳で死去」 .ニューヨーク・タイムズ.
  4. ^ RM Casey (2005). 「BLAST配列はゲノミクスとプロテオミクスに役立つ」 . Business Intelligence Network.
  5. ^ 「BLASTトピック」
  6. ^ Dan Stober (2008年1月16日). 「DNA分析を改良した数学者サム・カーリン氏、83歳で死去」 Stanford.edu . 2016年6月12日時点のオリジナルよりアーカイブ。 2019年7月16日閲覧
  7. ^ a b Stephen Altschul ; Warren Gish ; Webb Miller ; Eugene Myers ; David J. Lipman (1990). 「基本的なローカルアライメント検索ツール」 . J ​​ournal of Molecular Biology . 215 (3): 403– 410. doi : 10.1016/S0022-2836(05)80360-2 . PMID 2231712. S2CID 14441902 .  
  8. ^ Oehmen, C.; Nieplocha, J. (2006). 「ScalaBLAST: 高性能データ集約型バイオインフォマティクス解析のためのBLASTのスケーラブルな実装」 . IEEE Transactions on Parallel and Distributed Systems . 17 (8): 740. doi : 10.1109/TPDS.2006.112 . S2CID 11122366 . 
  9. ^ Oehmen, CS; Baxter, DJ (2013). 「ScalaBLAST 2.0:マルチプロセッサシステムにおける高速かつ堅牢なBLAST計算」 .バイオインフォマティクス. 29 (6): 797– 798. doi : 10.1093/bioinformatics/btt013 . PMC 3597145. PMID 23361326 .  
  10. ^ 「配列から意味を読み取る:Stephen F. AltschulによるBLASTの改善について」 ScienceWatch、2000年7~8月号。2007年10月7日時点のオリジナルよりアーカイブ。
  11. ^ Penumarthi, Lasya R.; Baptista, Rodrigo P.; Beaudry, Megan S.; Glenn, Travis C.; Kissinger, Jessica C. (2024-12-18). 「Cryptosporidium meleagridis の新たな染色体レベルゲノムアセンブリとアノテーション」 . Scientific Data . 11 (1): 1388. Bibcode : 2024NatSD..11.1388P . doi : 10.1038/ s41597-024-04235-7 . ISSN 2052-4463 . PMC 11655656. PMID 39695163 .   
  12. ^ Steven Henikoff ; Jorja Henikoff (1992). 「タンパク質ブロックからのアミノ酸置換マトリックス」. PNAS . 89 ( 22): 10915– 10919. Bibcode : 1992PNAS...8910915H . doi : 10.1073/pnas.89.22.10915 . PMC 50453. PMID 1438297 .  
  13. ^ a bマウント, DW (2004).バイオインフォマティクス:配列とゲノム解析(第2版). コールド・スプリング・ハーバー・プレス. ISBN 978-0-87969-712-9
  14. ^生物学的配列解析I、ゲノム解析の最新トピックス[1]より引用。
  15. ^ a b c d「ライブラリガイド:NCBIバイオインフォマティクスリソース:概要:BLAST:配列の比較と識別」
  16. ^ Yim , WC; Cushman, JC (2017). 「Divide and Conquer (DC) BLAST: HPC環境における高速かつ容易なBLAST実行」 . PeerJ . 5 e3486. doi : 10.7717/peerj.3486 . PMC 5483034. PMID 28652936 .  
  17. ^ Darling, Ace; Carey, Lewis; Feng, Wei-Chun (2003). 「mpiBLASTの設計、実装、および評価」(PDF) .ウィスコンシン大学マディソン校. 2023年4月17日閲覧
  18. ^ Kellis, Manolis (2020年10月5日). 「The Blast Algorithm (Basic Alignment Search Tool)」 . LibreTexts . 2023年4月17日閲覧
  19. ^ Darling, Ace; Carey, Lewis; Feng, Wei-Chun (2003). 「mpiBLASTの設計、実装、および評価」(PDF) .ウィスコンシン大学マディソン校. 2023年4月17日閲覧
  20. ^ Kent, W. James (2002-04-01). 「BLAT—BLASTに似たアライメントツール」 .ゲノム研究. 12 (4): 656– 664. doi : 10.1101/gr.229202 . ISSN 1088-9051 . PMC 187518. PMID 11932250 .   
  21. ^ Lavenier, D.; Lavenier, Dominique (2009). 「PLAST: データベース比較のための並列ローカルアライメント検索ツール」 . BMC Bioinformatics . 10 : 329. doi : 10.1186/1471-2105-10-329 . PMC 2770072. PMID 19821978 .  
  22. ^ Lavenier, D. (2009). 「高強度DNA配列比較のための順序付きインデックスシードアルゴリズム」(PDF) . 2008 IEEE International Symposium on Parallel and Distributed Processing (PDF) . pp.  1– 8. CiteSeerX 10.1.1.155.3633 . doi : 10.1109/IPDPS.2008.4536172 . ISBN  978-1-4244-1693-6. S2CID  10804289 .
  23. ^ Buchfink, Xie and Huson (2015). 「DIAMONDを用いた高速かつ高感度なタンパク質アライメント」. Nature Methods . 12 (1): 59– 60. doi : 10.1038/nmeth.3176 . PMID 25402007. S2CID 5346781 .  
  24. ^ Steinegger, Martin; Soeding, Johannes (2017-10-16). 「MMseqs2は大規模データセットの解析において高感度なタンパク質配列検索を可能にする」Nature Biotechnology . 35 (11): 1026– 1028. doi : 10.1038/nbt.3988 . hdl : 11858/00-001M-0000-002E-1967-3 . PMID 29035372 . S2CID 402352 .  
  25. ^マレキ、イーサン;クーヒ、ソマイエ。カヴェヴァシュ、ザーラ。マシャギ、アリレザ(2020)。「OptCAM: DNA バリアント発見のための超高速全光学アーキテクチャ」バイオフォトニクスジャーナル13 (1) e201900227。土井10.1002/jbio.201900227PMID 31397961 
  26. ^ 「バイオインフォマティクスの説明:BLASTとSmith-Watermanの比較」(PDF)。2007年7月4日。
  27. ^ Neumann, Kumar and Shalchian-Tabrizi (2014). 「新しいシーケンシング時代におけるBLAST出力の可視化」 . Briefings in Bioinformatics . 15 (4): 484– 503. doi : 10.1093/bib/bbt009 . PMID 23603091 . 
  28. ^ 「NCBI Magic-BLAST」 . ncbi.github.io . 2019年5月16日閲覧