スーパーファミリーデータベース

スーパーファミリー
コンテンツ
説明SUPERFAMILY データベースは、すべてのタンパク質とゲノムの構造的および機能的注釈を提供します。
キャプチャされたデータの種類タンパク質ファミリー、ゲノムアノテーション、アラインメント、隠れマルコフモデル(HMM)
生物全て
接触
研究センターブリストル大学
研究室
主な引用PMID  19036790
アクセス
データ形式FASTA形式
Webサイトsupfam.org
ダウンロードURLsupfam .org /SUPERFAMILY /ダウンロード.html
その他
ライセンスGNU一般公衆利用許諾契約書
バージョン1.75

SUPERFAMILYは、すべてのタンパク質とゲノムの構造的および機能的注釈のデータベースおよび検索プラットフォームです。[ 1 ] [ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ] [ 7 ]アミノ酸配列を既知の構造ドメイン、特にSCOPスーパーファミリーに分類します。[ 8 ] [ 9 ]ドメインは、タンパク質を形成する機能的、構造的、進化的単位です。共通の祖先を持つドメインはスーパーファミリーにグループ化されます。ドメインとドメインスーパーファミリーはSCOPで定義および説明されています。[ 8 ] [ 10 ]スーパーファミリーは、共通の進化的祖先をサポートする構造的証拠があるが、検出可能な配列相同性がない可能性があるタンパク質のグループです。[ 11 ]

注釈

SUPERFAMILYアノテーションは、 SCOPスーパーファミリーレベルで構造タンパク質ドメインを表す隠れマルコフモデル(HMM)の集合に基づいています。 [ 12 ] [ 13 ]スーパーファミリーは、進化的関係を持つドメインをグループ化したものです。このアノテーションは、完全に配列決定されたゲノムから得られたタンパク質配列を隠れマルコフモデルに 照らし合わせてスキャンすることで生成されます。

それぞれのタンパク質について、次のことが可能です。

  • SCOP分類のために配列を提出する
  • ドメイン構成、配列アライメント、タンパク質配列の詳細を表示します

ゲノムごとに次のことが可能です。

  • スーパーファミリーの割り当て、系統樹、ドメイン組織リスト、ネットワークを調べる
  • ゲノム内で過剰に表現されているスーパーファミリーと過少に表現されているスーパーファミリーを確認する

各スーパーファミリーごとに次の操作を実行できます。

  • SCOP分類、機能アノテーション、遺伝子オントロジーアノテーション、[ 6 ] [ 14 ] InterProアブストラクトおよびゲノム割り当てを検査する
  • 生命の樹全体にわたるスーパーファミリーの分類学的分布を探索する

すべての注釈、モデル、データベース ダンプは、誰でも無料でダウンロードできます。

特徴

配列検索

SUPERFAMILY HMMを用いたSCOPスーパーファミリーおよびファミリーレベルの分類のために、タンパク質またはDNA配列を提出してください。配列は、生データまたはファイルのアップロードで提出できますが、すべてFASTA形式である必要があります。配列は、アミノ酸、固定フレームのヌクレオチド配列、または提出されたヌクレオチド配列の全フレームのいずれかです。一度に最大1000配列まで実行できます。

キーワード検索

スーパーファミリー、ファミリー、または種名と、配列、SCOP、PDB、またはHMM IDを組み合わせてデータベースを検索します。検索が成功すると、クエリに一致するクラス、フォールド、スーパーファミリー、ファミリー、および個々のタンパク質が表示されます。

ドメイン割り当て

データベースには、真核生物と原核生物の完全な配列のドメイン割り当て、アラインメント、アーキテクチャ、および配列コレクションが含まれています。

比較ゲノミクスツール

各生物の、珍しい(過剰または過少に表現されている)スーパーファミリーとファミリー、隣接するドメインペアのリストとグラフ、一意のドメインペア、ドメインの組み合わせ、ドメインアーキテクチャの共起ネットワーク、および分類上の界全体にわたるドメイン分布を参照します。

ゲノム統計

各ゲノムについて:シーケンス数、割り当てられたシーケンス数、割り当てられたシーケンスのパーセンテージ、シーケンスカバレッジの合計パーセンテージ、割り当てられたドメイン数、割り当てられたスーパーファミリー数、割り当てられたファミリー数、スーパーファミリーの平均サイズ、重複によって生成されたパーセンテージ、平均シーケンス長、一致する平均長さ、ドメインペアの数、および一意のドメインアーキテクチャの数。

遺伝子オントロジー

ドメイン中心の遺伝子オントロジー(GO) が自動的に注釈付けされます。

配列決定されたタンパク質と既知の機能との間のギャップが拡大しているため、特に既知のドメインを持つタンパク質に対して、タンパク質の機能的注釈を付けるより自動化された方法の開発がますます重要になっています。SUPERFAMILYは、ゲノムオントロジーアノテーション(GOA)プロジェクトから取得したタンパク質レベルのGOアノテーションを使用します。このプロジェクトは、幅広い種のUniprotKB内のタンパク質に直接関連付けられた高品質のGOアノテーションを提供しています。[ 15 ] SUPERFAMILYは、進化的に閉じたドメイン(SCOPファミリーレベル)と遠いドメイン(SCOPスーパーファミリーレベル)のGOアノテーションを生成しました。

表現型オントロジー

疾患オントロジー、ヒト表現型、マウス表現型、線虫表現型、酵母表現型、ハエ表現型、ハエ解剖学、ゼブラフィッシュ解剖学、アフリカツメガエル解剖学、およびシロイヌナズナ植物を含むドメイン中心の表現型/解剖学オントロジー。

スーパーファミリー注釈

InterProは1,000以上のスーパーファミリーの抄録と、700以上のスーパーファミリーの遺伝子オントロジー(GO)アノテーションを収録しています。この機能により、スーパーファミリーの主要な特徴、機能、構造を直接アノテーションすることが可能です。

機能注釈

SCOP 1.73 スーパーファミリーの機能注釈。

SUPERFAMILYデータベースは、COGデータベースで使用されているスキームと同様に、50の詳細な機能カテゴリーを7つの一般機能カテゴリーにマッピングするスキームを採用しています。[ 16 ]スーパーファミリーに割り当てられた一般機能は、そのスーパーファミリーの主要な機能を反映するために使用されています。機能の一般カテゴリーは以下のとおりです。

  1. 情報: 遺伝コードの保存と維持、DNA の複製と修復、一般的な転写翻訳
  2. 調節: 遺伝子発現およびタンパク質活性の調節、環境入力に応じた情報処理、シグナル伝達、一般的な調節または受容体活性。
  3. 代謝同化および異化プロセス、細胞の維持および恒常性、二次代謝。
  4. 細胞内プロセス:細胞の移動と分裂、細胞死細胞内輸送分泌
  5. 細胞外プロセス: 細胞接着などの細胞間および細胞外プロセス、血液凝固や免疫システムなどの生物プロセス。
  6. 一般: 一般的かつ多様な機能、タンパク質脂質小分子イオンとの相互作用。
  7. その他/不明: 機能、ウイルスタンパク質、または毒素が不明です。

SCOPクラスaからgの各ドメインスーパーファミリーは、このスキーム[ 17 ] [ 18 ] [ 19 ]を使用して手動で注釈付けされ、使用された情報はSCOP[ 10 ] InterPro[ 20 ] [ 21 ] Pfam[ 22 ] Swiss Prot[ 23 ]およびさまざまな文献ソースから提供されました。

系統樹

SUPERFAMILYサイトで利用可能なゲノムを3つ以上選択することで、カスタム系統樹を作成できます。系統樹は、SUPERFAMILYの全ゲノムのタンパク質ドメイン構造データに基づき、ヒューリスティック・パーシモニー法を用いて生成されます。ゲノムの組み合わせ、または特定のクレードを個別の系統樹として表示できます。

類似ドメインアーキテクチャ

この機能により、ユーザーは、関心のあるドメイン アーキテクチャに最も類似した 10 個のドメイン アーキテクチャを見つけることができます。

隠れマルコフモデル

SUPERFAMILY隠れマルコフモデルを使用して、シーケンスの SCOP ドメイン割り当てを生成します。

プロフィール比較

HMM検索で有意な一致が見つからない場合は、リモートドメインの一致を検索します。2つのプロファイルHMMをアラインメントしてスコアリングするために、 プロファイル比較(PRC) [ 24 ]が使用されます。

ウェブサービス

分散注釈サーバーとSUPERFAMILYへのリンク。

ダウンロード

シーケンス、割り当て、モデル、MySQL データベース、スクリプト - 毎週更新されます。

研究での使用

SUPERFAMILYデータベースは数多くの研究用途があり、多くの研究グループによって様々な研究に利用されてきました。ユーザーが他の方法で調べたいタンパク質のデータベースとして、あるいは新規または未解析のタンパク質に機能と構造を割り当てるために利用できます。ある研究では、SUPERFAMILYは、データベースの隠れマルコフモデルと比較することで、多数の機能未知ドメインに適切な機能と構造を正しく割り当てるのに非常に優れていることが示されました。[ 25 ]別の研究では、SUPERFAMILYを用いて1,733個のFoldスーパーファミリードメイン(FSF)のデータセットを生成し、プロテオームとファンクショノームを比較することで、細胞多様化の起源を特定しました。[ 26 ]

参考文献

  1. ^ Wilson, D; Pethica, R; Zhou, Y; Talbot, C; Vogel, C ; Madera, M; Chothia, C ; Gough, J (2009年1月). 「スーパーファミリー ― 高度な比較ゲノミクス、データマイニング、可視化、系統発生」 . Nucleic Acids Research . 37 (データベース号): D380-6. doi : 10.1093/NAR/ GKN762 . ISSN 0305-1048 . PMC 2686452. PMID 19036790. Wikidata Q26781958 .    
  2. ^マデラ, マーティン; フォーゲル, クリスティン; クンマーフェルド, サラ・K.; チョシア, サイラス; ゴフ, ジュリアン (2004-01-01). 「SUPERFAMILYデータベース2004:追加と改良」 . Nucleic Acids Research . 32 (suppl 1): D235– D239. doi : 10.1093/nar/ gkh117 . ISSN 0305-1048 . PMC 308851. PMID 14681402 .   
  3. ^ Wilson, D.; Madera, M.; Vogel, C.; Chothia, C .; Gough, J. (2007). 「2007年のSUPERFAMILYデータベース:ファミリーと機能」 . Nucleic Acids Research . 35 (データベース号): D308– D313. doi : 10.1093/nar/ gkl910 . PMC 1669749. PMID 17098927 .  
  4. ^ Gough, J. (2002). 「構造ゲノミクスにおけるSUPERFAMILYデータベース」 . Acta Crystallographica Section D. 58 ( Pt 11): 1897– 1900. doi : 10.1107/s0907444902015160 . PMID 12393919 . 
  5. ^ Gough, J. ; Chothia, C. (2002). 「スーパーファミリー:構造が既知のすべてのタンパク質を表すHMM。SCOP配列検索、アラインメント、ゲノム割り当て」. Nucleic Acids Research . 30 (1): 268– 272. doi : 10.1093/nar/30.1.268 . PMC 99153. PMID 11752312 .  
  6. ^ a b De Lima Morais, DA; Fang, H.; Rackham, OJL; Wilson, D.; Pethica, R.; Chothia, C .; Gough, J. (2010). 「ドメイン中心の遺伝子オントロジー手法を含むSUPERFAMILY 1.75」 . Nucleic Acids Research . 39 (データベース号): D427– D434. doi : 10.1093/nar/ gkq1130 . PMC 3013712. PMID 21062816 .  
  7. ^ Oates, ME; Stahlhacke, J; Vavoulis, DV; Smithers, B; Rackham, OJ; Sardar, AJ; Zaucha, J; Thurlby, N; Fang, H; Gough, J (2015). 「2014年のSUPERFAMILY 1.75データベース:データの倍増」 . Nucleic Acids Research . 43 (データベース号): D227–33. doi : 10.1093/nar/ gku1041 . PMC 4383889. PMID 25414345 .  
  8. ^ a b Hubbard, TJ ; Ailey, B. ; Brenner, SE ; Murzin, AG ; Chothia, C. (1999). 「SCOP: タンパク質構造分類データベース」 . Nucleic Acids Research . 27 (1): 254– 256. doi : 10.1093 / nar/27.1.254 . PMC 148149. PMID 9847194 .  
  9. ^ロ・コンテ、L.;エイリー、B.テネシー州ハバード;ブレナー、SE;ムルジン、AG; Chothia、C. (2000)。「SCOP: タンパク質の構造分類データベース」核酸研究28 (1): 257–259 .土井: 10.1093/nar/28.1.257PMC 102479PMID 10592240  
  10. ^ a b Andreeva, Antonina; Howorth, Dave; Brenner, Steven E.; Hubbard, Tim JP; Chothia, Cyrus; Murzin, Alexey G. (2004-01-01). 「SCOPデータベース2004:構造と配列ファミリーデータの統合における改良」 . Nucleic Acids Research . 32 (データベース号): D226– D229. doi : 10.1093 / nar/gkh039 . ISSN 0305-1048 . PMC 308773. PMID 14681400 .   
  11. ^ミズーリ州デイホフ;ペンシルベニア州マクラフリン。バーカー、トイレ。ハント、LT (1975-04-01)。 「タンパク質スーパーファミリー内の配列の進化」。ナトゥールヴィッセンシャフテン62 (4): 154–161ビブコード: 1975NW....62....154D土井: 10.1007/BF00608697ISSN 0028-1042S2CID 40304076  
  12. ^ Gough, J.; Karplus, K.; Hughey, R.; Chothia, C. (2001). 「構造が既知のタンパク質全てを表す隠れマルコフモデルライブラリを用いたゲノム配列への相同性の割り当て」. Journal of Molecular Biology . 313 (4): 903– 919. CiteSeerX 10.1.1.144.6577 . doi : 10.1006/jmbi.2001.5080 . PMID 11697912 .  
  13. ^ Karplus, K.; Barrett, C.; Hughey, R. (1998-01-01). 「隠れマルコフモデルを用いた遠隔タンパク質相同性の検出」 .バイオインフォマティクス. 14 (10): 846– 856. doi : 10.1093/bioinformatics/14.10.846 . ISSN 1367-4803 . PMID 9927713 .  
  14. ^ Botstein, D. ; Cherry, JM; Ashburner, M. ; Ball, CA; Blake, JA; Butler, H.; Davis, AP; Dolinski, K.; Dwight, SS; Eppig, JT; Harris, MA; Hill, DP; Issel-Tarver, L.; Kasarskis, A.; Lewis, S .; Matese, JC; Richardson, JE; Ringwald, M.; Rubin , GM ; Sherlock, G. (2000). 「遺伝子オントロジー:生物学の統一のためツール.遺伝子オントロジーコンソーシアム」.Nature Genetics.25 ( 1 ): 25– 29. doi : 10.1038/ 75556.PMC 3037419.PMID 10802651  オープンアクセスアイコン
  15. ^ Barrell, Daniel; Dimmer, Emily; Huntley, Rachael P.; Binns, David; O'Donovan, Claire; Apweiler, Rolf (2009-01-01). GOAデータベース2009—統合遺伝子オントロジーアノテーションリソース」 . Nucleic Acids Research . 37 (suppl 1): D396– D403. doi : 10.1093/nar/gkn803 . ISSN 0305-1048 . PMC 2686469. PMID 18957448 .   
  16. ^ Tatusov, Roman L; Fedorova, Natalie D; Jackson, John D; Jacobs, Aviva R; Kiryutin, Boris; Koonin, Eugene V; Krylov, Dmitri M; Mazumder, Raja; Mekhedov, Sergei L (2003-09-11). 「COGデータベース:真核生物を含む最新版」 . BMC Bioinformatics . 4 : 41. doi : 10.1186/1471-2105-4-41 . ISSN 1471-2105 . PMC 222959. PMID 12969510 .   
  17. ^ Vogel, Christine; Berzuini, Carlo; Bashton, Matthew; Gough, Julian; Teichmann, Sarah A. (2004-02-20). 「超ドメイン:単一タンパク質ドメインよりも大きな進化単位」. Journal of Molecular Biology . 336 (3): 809– 823. CiteSeerX 10.1.1.116.6568 . doi : 10.1016/j.jmb.2003.12.026 . ISSN 0022-2836 . PMID 15095989 .   
  18. ^ Vogel, Christine; Teichmann, Sarah A.; Pereira-Leal, Jose (2005-02-11). 「ドメイン重複と組換えの関係」. Journal of Molecular Biology . 346 (1): 355– 365. doi : 10.1016/j.jmb.2004.11.050 . ISSN 0022-2836 . PMID 15663950 .  
  19. ^ Vogel, Christine; Chothia, Cyrus (2006-05-01). 「タンパク質ファミリーの拡大と生物学的複雑性」 . PLOS Computational Biology . 2 ( 5) e48. Bibcode : 2006PLSCB...2...48V . doi : 10.1371/journal.pcbi.0020048 . ISSN 1553-734X . PMC 1464810. PMID 16733546 .   
  20. ^ Mulder, Nicola J.; Apweiler, Rolf; Attwood, Teresa K.; Bairoch, Amos; Barrell, Daniel; Bateman, Alex; Binns, David; Biswas, Margaret; Bradley, Paul (2003-01-01). 「InterProデータベース2003は、収録範囲の拡大と新機能を追加」 . Nucleic Acids Research . 31 (1): 315– 318. doi : 10.1093/nar/gkg046 . ISSN 0305-1048 . PMC 165493. PMID 12520011 .   
  21. ^ Mulder, Nicola J.; Apweiler, Rolf; Attwood, Teresa K.; Bairoch, Amos; Bateman, Alex; Binns, David; Bradley, Paul; Bork, Peer; Bucher, Phillip (2005-01-01). 「InterPro, progress and status in 2005」 . Nucleic Acids Research . 33 (データベース号): D201– D205. doi : 10.1093/nar/ gki106 . ISSN 0305-1048 . PMC 540060. PMID 15608177 .   
  22. ^ Finn, Robert D.; Mistry, Jaina; Schuster-Böckler, Benjamin; Griffiths-Jones, Sam; Hollich, Volker; Lassmann, Timo; Moxon, Simon; Marshall, Mhairi; Khanna, Ajay (2006-01-01). 「Pfam:クラン、ウェブツール、サービス」 . Nucleic Acids Research . 34 (データベース号): D247– D251. doi : 10.1093/nar/gkj149 . ISSN 0305-1048 . PMC 1347511. PMID 16381856 .   
  23. ^ Boeckmann, Brigitte; Blatter, Marie-Claude; Famiglietti, Livia; Hinz, Ursula; Lane, Lydie; Roechert, Bernd; Bairoch, Amos (2005-11-01). 「タンパク質の多様性と機能的多様性:生物学的文脈におけるSwiss-Protアノテーション」 . Comptes Rendus Biologies . 328 ( 10–11 ): 882–899 . doi : 10.1016/j.crvi.2005.06.001 . ISSN 1631-0691 . PMID 16286078 .  
  24. ^マデラ、マーティン (2008年11月15日). プロファイル比較器:プロファイル隠れマルコフモデルのスコアリングとアライメントのためのプログラム」 .バイオインフォマティクス. 24 (22): 2630– 2631. doi : 10.1093/bioinformatics/btn504 . ISSN 1367-4803 . PMC 2579712. PMID 18845584 .   
  25. ^ Mudgal, Richa; Sandhya, Sankaran; Chandra, Nagasuma; Srinivasan, Narayanaswamy (2015-07-31). 「DUFの脱DUF化:高感度相同性検出法を用いた機能未知ドメインの遠距離進化関係の解明」. Biology Direct . 10 (1): 38. doi : 10.1186/s13062-015-0069-2 . PMC 4520260. PMID 26228684 .  
  26. ^ Nasir, Arshan; Caetano-Anollés, Gustavo (2013). プロテオームとファンクショノームの比較解析が細胞多様化の起源に関する知見をもたらす」 Archaea . 2013 648746. doi : 10.1155 /2013/648746 . PMC 3892558. PMID 24492748 .