CS-BLAST

CS-BLAST
開発者Angermueller C、Biegert A、Soeding J
安定版リリース
2.2.3 / 2013年12月7日 (2013年12月7日
プレビューリリース
1.1 / 2009年4月14日 (2009年4月14日
リポジトリ
言語C++
対応言語英語
入力バイオインフォマティクスツール
ライセンスGNU GPL v3
ウェブサイトhttp://wwwuser.gwdg.de/~compbiol/data/csblast/releases/https://github.com/soedinglab/csblast

CS-BLAST [ 1 ] [ 2 ] [ 3 ] (Context-Specific BLAST) は、コンテキスト固有の変異確率を使用してBLAST (Basic Local Alignment Search Tool) [ 4 ]を拡張したタンパク質配列 を検索するツールです。具体的には、CS-BLAST は、クエリ配列の短いウィンドウから各クエリ配列のコンテキスト固有のアミノ酸類似性を導出します。CS-BLAST を使用すると、BLAST と比較して、速度を落とすことなく感度が 2 倍になり、アライメントの品質が大幅に向上します。CSI -BLAST (Context-Specific Iterated BLAST) はPSI-BLAST [ 5 ] (Position-Specific Iterated BLAST) のコンテキスト固有のアナログであり、置換確率を使用して変異プロファイルを計算し、それをクエリプロファイルと混合します。CSI-BLAST (Context-Specific Iterated BLAST) は PSI-BLAST (Position-Specific Iterated BLAST) のコンテキスト固有のアナログです。これら両方のプログラムは Web サーバーとして利用可能であり、無料でダウンロードできます。

背景

相同性とは、共通の祖先に由来する生物学的構造または配列間の関係です。相同タンパク質(共通の祖先を持つタンパク質)は、配列の類似性から推測されます。相同関係の推測には、アラインメントされたペアのスコアからギャップのペナルティを差し引いて計算することが含まれます。アラインメントされたタンパク質ペアは、2つ以上のタンパク質間の関係を示す類似領域を特定します。相同関係を持つためには、アラインメントされたすべてのアミノ酸またはヌクレオチドのペアのスコアの合計が十分に高くなければなりません[2]。配列比較の標準的な方法では、これを実現するために置換マトリックスが使用されます[4]。アミノ酸またはヌクレオチド間の類似性は、これらの置換マトリックスで定量化されます。アミノ酸とヌクレオチドの置換スコア( )は次のように表されます S{\displaystyle S}a{\displaystyle a}b{\displaystyle b}

Sabconst×対数Pa|bPa{\displaystyle S(a,b)=const\times \log \left({\frac {P(a|b)}{P(a)}}\right)}

ここで、はアミノ酸がアミノ酸に変異する確率を表します[2]。大規模な配列アライメントセットでは、アミノ酸の数とアライメントされたペアの数を数えることで、確率とを導くことができます。 Pa|b{\displaystyle P(a|b)}a{\displaystyle a}b{\displaystyle b}ab{\displaystyle (a,b)}Pa|b{\displaystyle P(a|b)}Pa{\displaystyle P(a)}

タンパク質配列は安定した構造を維持する必要があるため、残基の置換​​確率は、その残基が位置する構造的コンテキストによって大きく左右されます。そのため、置換マトリックスは構造的コンテキストに合わせて学習されます。コンテキスト情報は状態間の遷移確率にエンコードされているため、対応する状態に応じて重み付けされた置換マトリックスの変異確率を混合することで、標準的な置換マトリックスと比較してアライメント品質が向上します。CS-BLASTはこの概念をさらに改良したものです。図は、アライメントマトリックスを用いて、配列とプロファイルの等価性を示しています。クエリプロファイルは人工変異の結果であり、バーの高さは対応するアミノ酸の確率に比例しています。

(ここに図が必要です。これがキャプションです)「配列検索/アライメントアルゴリズムは、類似度スコア(青から赤に色分け)の合計を最大化するパスを見つけます。置換マトリックス擬似カウント方式を用いて人工的な変異を追加することでクエリ配列から配列プロファイル(色分けされたヒストグラム)を生成する場合、置換マトリックススコアはプロファイルスコアと等しくなります。ヒストグラムのバーの高さは、プロファイル列に含まれるアミノ酸の割合を表します。」

パフォーマンス

CS-BLASTは、通常のBLASTやPSI-BLASTと比較して、配列同一性の全範囲にわたって、特に難しいアライメントにおいてアライメントの品質を大幅に向上させます。PSI-BLAST(Position-Specific Iterated BLAST)は、通常のBLASTと反復ごとにほぼ同じ速度で実行されますが、生物学的に関連性のある弱い配列類似性を検出できます。アライメントの品質は、アライメント感度とアライメント精度に基づいています

アライメント品質

アライメント感度は、残基ペアの予測アライメントを、アライメント可能なペアの総数と正しく比較することで測定されます。これは、(正しくアライメントされたペア)/(構造的にアライメント可能なペア)という割合で計算されます

アライメント精度は、アライメントされた残基ペアの正確さによって測定されます。これは、(正しくアライメントされたペア)/(アライメントされたペア)という割合で計算されます。

検索パフォーマンス

このグラフは、BiegertとSödingが相同性検出を評価するために使用したベンチマークです。このベンチマークでは、同じスーパーファミリーからの真陽性と異なるフォールドからのペアの偽陽性を用いて、CS-BLASTとBLASTを比較しています。(ここにグラフが必要です)

もう1つのグラフは、PSI-BLASTとCSI-BLASTの真陽性(前のグラフとは異なるスケール)と偽陽性を検出し、1~5回の反復で両者を比較します。(ここには別のグラフが必要です)

CS-BLASTは、配列比較において優れた感度とアライメント品質を提供します。CS-BLASTによる配列検索は、BLASTの2倍以上の感度を備えています。より高品質なアライメントを生成し、速度を落とすことなく信頼性の高いE値を生成します。CS-BLASTは、累積エラー率20%で139%多くの相同タンパク質を検出します。エラー率10%では138%多くの相同タンパク質が検出され、最も簡単なケースではエラー率1%でも、CS-BLASTはBLASTよりも96%高い効果を示しました。さらに、CS-BLASTの2回の反復は、PSI-BLASTの5回の反復よりも感度が高く、約15%多くの相同タンパク質が検出されました。

方法

CS-BLAST法は、各残基を中心とした13個の残基ウィンドウについて、配列のコンテキスト特異的なアミノ酸間の類似性を導出します。CS-BLASTは、コンテキスト特異的な変異を用いてクエリ配列の配列プロファイルを生成し、プロファイルから配列への検索方法を開始することで機能します

CS-BLASTは、まず各位置における予想される変異確率を予測します。特定の残基について、画像に示すように、合計10個の周囲残基からなる配列ウィンドウが選択されます。次に、BiegertとSödingは、この配列ウィンドウを数千のコンテキストプロファイルを含むライブラリと比較しました。このライブラリは、代表的な配列プロファイルウィンドウセットをクラスタリングすることで生成されます。実際の変異確率の予測は、最も類似したコンテキストプロファイルの中央列を重み付け混合することで実現されます。これにより、相同性がなくギャップのない短いプロファイルがアラインメントされ、より一致性の高いプロファイルに高い重みが与えられ、検出が容易になります。配列プロファイルは、相同配列の多重アラインメントを表し、関連する配列の各位置にどのようなアミノ酸が出現する可能性が高いかを記述します。この手法では、置換行列は不要です。さらに、コンテキスト情報はコンテキストプロファイル内にエンコードされているため、遷移確率も不要です。これにより計算が簡素化され、実行時間を2乗ではなく線形にスケーリングできます。

コンテキスト特異的変異確率(コンテキストを与えられた相同配列において特定のアミノ酸が出現する確率)は、最も類似したコンテキストプロファイルの中央の列に含まれるアミノ酸を重み付け混合することによって計算されます。この図は、特定の位置にある特定の残基の予測変異確率の計算を示しています。図に示すように、コンテキストプロファイルのライブラリはすべて、クエリ配列のコンテキスト特異的配列プロファイルとの類似性に基づいて寄与します。

モデル

アミノ酸の局所的な配列コンテキストのみを用いて置換確率を予測することで、クエリタンパク質の構造を知らなくても、標準的な置換マトリックスよりも多くの相同タンパク質を検出できるという利点が得られます[4]。BigertとSödingの置換確率予測アプローチは、生成モデルに基づいています。Angermüllerとの共同研究による別の論文では、彼らは予測精度を向上させる識別機械学習手法を開発しています[2]。

生成モデル

観測変数と目標変数が与えられた場合、生成モデルは確率とを別々に定義します。観測されていない目標変数を予測するために、ベイズの定理が用いられますx{\displaystyle x}y{\displaystyle y}Pxy{\displaystyle P(x,y)}Py{\displaystyle P(y)}y{\displaystyle y}Py|xPx|yPy[yPx|yPy]{\displaystyle P(y|x)=\left({\frac {P(x|y)P(y)}{[\textstyle \sum _{y}P(x|y)P(y)\displaystyle ]}}\right)}

が使用されます。生成モデルは、その名の通り、新しいデータポイントを生成することを可能にします。結合分布は と記述されます。生成モデルを訓練するには、結合確率 を最大化するために次の式が使用されます。 (x,y){\displaystyle (x,y)}P(x,y)=P(x|y)P(y){\displaystyle P(x,y)=P(x|y)P(y)}(P(xn,yn)trainingData(xn,yn)){\displaystyle \prod \left({\frac {P(x_{n},y_{n})}{trainingData(x_{n},y_{n})}}\right)}

識別モデル

識別モデルは、ロジスティック回帰最大エントロピー分類器です。識別モデルの目的は、クエリ配列が与えられた場合に、コンテキスト固有の置換確率を予測することです。置換確率をモデル化するための識別アプローチ(配列の位置の周囲のアミノ酸配列を記述)は、コンテキスト状態に基づいています。コンテキスト状態は、パラメータ放出重み( )、バイアス重み()、およびコンテキスト重み( )によって特徴付けられます[2]。コンテキスト状態からの放出確率は、 からについて、次のように放出重みによって与えられますP(a|Cl){\displaystyle P(a|C_{l})}Cl{\displaystyle C_{l}}l{\displaystyle l}K{\displaystyle K}vk(a){\displaystyle v_{k}(a)}πk{\displaystyle \pi _{k}}λk(j,a){\displaystyle \lambda _{k}(j,a)}d=1{\displaystyle d=1}20{\displaystyle 20}P(a|k)=(exp(vk(a))exp(vk(a))){\displaystyle P(a|k)=\left({\frac {exp(v_{k}(a))}{\sum exp(v_{k}(a'))}}\right)}

ここで、 は放出確率、 はコンテキスト状態です。識別的アプローチでは、コンテキストが与えられた場合のコンテキスト状態の確率は、コンテキストアカウントプロファイルのアフィン関数の指数関数によって直接モデル化されます。ここで、はコンテキストカウントプロファイルであり、正規化定数は確率を1に正規化します。この式は以下のとおりです。 最初の合計はになり、2番目の合計はになります。P(a|k){\displaystyle P(a|k)}k{\displaystyle k}Cl{\displaystyle C_{l}}Cl(j,a){\displaystyle C_{l}(j,a)}Z(Cl){\displaystyle Z(C_{l})}j=d{\displaystyle j=-d}d{\displaystyle d}a=1{\displaystyle a=1}20{\displaystyle 20}P(k|Cl)=(1Z(Cl)exp(πk+πλk(j,a)(Cl(j,a))){\displaystyle P(k|C_{l})=\left({\frac {1}{Z(C_{l})}}exp(\pi _{k}+\pi \sum \sum \lambda _{k}(j,a)(C_{l}(j,a))\right)}

生成モデルと同様に、ターゲット分布は、類似度によって重み付けされた各コンテキスト状態の放出確率を混合することによって得られます。

CS-BLASTの使用

MPIバイオインフォマティクスツールキットは、インタラクティブなウェブサイトとサービスで提供されており、CS-BLASTやPSI-BLAST [1]を含む様々なツールを用いて、誰でも包括的かつ共同的なタンパク質解析を行うことができます。このツールでは、タンパク質を入力し、オプションを選択して解析をカスタマイズできます。また、出力を他のツールに転送することもできます

参照

参考文献

  1. ^ Angermüller, C.; Biegert, A.; Söding, J. (2012年12月). 「文脈特異的なアミノ酸置換確率の識別的モデリング」 .バイオインフォマティクス. 28 (24): 3240–7 . doi : 10.1093/bioinformatics/bts622 . hdl : 11858/00-001M-0000-0015-8D22-F . PMID  23080114
  2. ^ Biegert, A.; Söding, J. (2009年3月). 「相同性検索のための配列コンテキスト特異的プロファイル」(PDF) . Proc Natl Acad Sci USA . 106 (10): 3770–5 . Bibcode : 2009PNAS..106.3770B . doi : 10.1073 /pnas.0810767106 . PMC 2645910. PMID 19234132 .  
  3. ^ 「遺伝子とタンパク質のより優れた配列検索法が考案」 ScienceDaily、2009年3月7日。 2009年8月14日閲覧
  4. ^ Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990). 「基本的なローカルアライメント検索ツール」. J​​ Mol Biol . 215 (3): 403– 410. doi : 10.1016/S0022-2836(05)80360-2 . PMID 2231712 . 
  5. ^ Altschul SF; Madden TL; Schäffer AA; Zhang J; Zhang Z; Miller W; Lipman DJ. (1997). 「Gapped BLASTとPSI-BLAST:新世代のタンパク質データベース検索プログラム」 . Nucleic Acids Res . 25 (17): 3389– 3402. doi : 10.1093 / nar/25.17.3389 . PMC 146917. PMID 9254694 .  

[1] Alva, Vikram, Seung-Zin Nam, Johannes Söding, Andrei N. Lupas. 「高度なタンパク質配列および構造解析のための統合プラットフォームとしてのMPIバイオインフォマティクスツールキット」Nucleic Acids Research 44.Webサーバー号(2016年):W410-415. NCBI . Web. 2016年11月2日

[2] Angermüller, Christof, Andreas Biegert, Johannes Söding. 「文脈依存的なアミノ酸置換特性の識別的モデリング」BIOINFORMATICS 28.24 (2012): 3240-247. Oxford Journals . Web. 2016年11月2日.

[3] Astschul, Stephen F., et al. “Gapped BLAST and PSI-BLAST: A New Generation Protein Database Search Programs.” Nucleic Acids Research 25.17 (1997): 3389-402. Oxford University Press. Print

[4] Bigert, A., J. Söding. 「相同性検索のための配列コンテキスト特異的プロファイル」米国科学アカデミー紀要106.10 (2009): 3770-3775. PNAS. Web. 2016年10月23日