巨大生物学的分子の国際オープンアクセスデータベース
タンパク質データバンク
コンテンツ
説明
接触
主な引用PMID  30357364
アクセス
データ形式mmCIFPDB
Webサイト

タンパク質データバンク(PDB)[ 1 ]は、タンパク質核酸などの大きな生物学的分子の3次元構造データのデータベースであり、ワールドワイドタンパク質データバンク(wwPDB)によって管理されています。この構造データは、X線結晶構造解析NMR分光法、そしてますます増えている極低温電子顕微鏡法などの実験的手法を使用して、世界中の生物学者生化学者によって入手され、登録されています。提出されたすべてのデータは専門のバイオキュレーターによってレビューされ、承認されると、CC0パブリックドメインデディケーションの下でインターネット上で無料で利用できるようになります。[ 2 ]データへのグローバルアクセスは、wwPDBメンバー組織(PDBe、[ 3 ] PDBj、[ 4 ] RCSB PDB、[ 5 ] BMRB [ 6 ]およびEMDB [ 7 ])のウェブサイトから提供されています。

PDBは、構造ゲノミクスなどの構造生物学分野における鍵となるデータベースです。現在、主要な科学雑誌のほとんどと一部の資金提供機関は、科学者に対しPDBへの構造データの提出を義務付けています。PDBに登録されたタンパク質構造は、他の多くのデータベースでも利用されています。例えば、SCOPCATHはタンパク質構造を分類し、PDBsumは遺伝子オントロジーなどの他の情報源からの情報を用いてPDBエントリのグラフィカルな概要を提供しています[ 8 ] [ 9 ]

歴史

[編集]

PDB は、2 つの力が結集して誕生しました。1 つは、X 線回折法で決定されたタンパク質構造データセットの小規模ながら成長を続けるコレクション、もう 1 つは、1968 年に新たに利用可能になった分子グラフィックス ディスプレイであるBrookhaven RAster Display (BRAD) で、これによりタンパク質構造を 3D で視覚化できるようになりました。1969 年、ブルックヘブン国立研究所の Walter Hamilton の支援を受けて、Edgar Meyer (テキサス A&M 大学) は、原子座標ファイルを共通形式で保存し、幾何学的およびグラフィックな評価に利用できるようにするためのソフトウェアを書き始めました。1971 年までに、Meyer のプログラムの 1 つである SEARCH により、研究者はデータベースの情報にリモートからアクセスして、オフラインでタンパク質構造を研究できるようになりました。[ 10 ] SEARCH はネットワーク化を実現する上で重要な役割を果たし、PDB が機能的に始まったことを示しています。

タンパク質データバンクは、1971年10月にネイチャーニューバイオロジー[ 11 ]で、英国のケンブリッジ結晶学データセンターと米国のブルックヘブン国立研究所の共同事業として発表されました

1973年にハミルトンが死去すると、トム・ケッツルがその後20年間PDBの指揮を引き継ぎました。1994年1月、イスラエルのワイツマン科学研究所のジョエル・サスマンがPDBの責任者に任命されました。1998年10月、[ 12 ] PDBは構造バイオインフォマティクス研究協力者(RCSB)に移管され、[ 13 ]移管は1999年6月に完了しました。新しい所長はラトガース大学(RCSBの管理機関の1つで、もう1つはカリフォルニア大学サンディエゴ校サンディエゴスーパーコンピュータセンター)のヘレン・M・バーマンでした。[ 14 ] 2003年にwwPDBが設立され、PDBは国際組織となりました。創設メンバーはPDBe(ヨーロッパ)、[ 3 ] RCSB(米国)、およびPDBj(日本)です。[ 4 ]生物磁気共鳴データバンク(BMRB)[ 6 ]は2006年に加盟しました。電子顕微鏡データバンク(EMDB)[ 15 ]は2021年に加盟しました。wwPDBの5つのメンバーはそれぞれ、PDBデータの登録、データ処理、配信センターとして機能します。データ処理とは、wwPDBのスタッフが提出された各エントリをレビューし、注釈を付けることを意味します。[ 16 ]その後、データは自動的に妥当性チェックされます(この検証ソフトウェアのソースコード[ 17 ]は無料で公開されています)。

コンテンツ

[編集]

PDBデータベースは、保有リストとともに毎週( UTC +0水曜日)更新されます。 [ 18 ] 2025年11月4日現在[アップデート]、PDBは次のもので構成されています。

実験
方法
タンパク質のみ オリゴ糖を含むタンパク質 タンパク質/核酸
複合体
核酸のみ 他の オリゴ糖のみ 合計
X線回折 176378 10284 9007 3077 174 11 198,931
電子顕微鏡 20438 3396 5931 200 13 0 29,978
核磁気共鳴 12709 34 287 1554 33 6 14623
統合型 342 8 24 2 3 0 379
複数の方法 221 11 7 15 0 1 255
中性子 83 1 0 3 0 0 87
他の 32 0 0 1 0 4 37
合計: 210,203 13,734 15,256 4,852 223 22 244,290
PDB 内の 162,041 個の構造には構造因子ファイルがあります。
11,242 個の構造に NMR 拘束ファイルがあります。
PDB 内の 5,774 個の構造には化学シフトファイルがあります。
PDBの13,388個の構造には、EMデータバンク3DEMマップファイルが保存されています。
数十年にわたるタンパク質構造決定技術の進歩。MX = 高分子結晶構造解析、3DEM = 3D電子顕微鏡[ 19 ]

ほとんどの構造はX線回折によって決定されますが、約7%の構造はタンパク質NMRによって決定されます。X線回折ではタンパク質の原子座標の近似値が得られますが、NMRではタンパク質の原子対間の距離が推定されます。タンパク質の最終的な立体構造は、NMRから距離幾何問題を解くことで得られます。2013年以降、クライオ電子顕微鏡法によって決定されるタンパク質の数は増加しています

X線回折法によって決定されたPDB構造のうち、構造因子ファイルを持つものについては、電子密度マップを閲覧できます。これらの構造のデータは、3つのPDBウェブサイトで閲覧できます。

歴史的に、PDBに登録されている構造物の数はほぼ指数関数的に増加しており、1982年には100件、1993年には1,000件、1999年には10,000件、2014年には100,000件、2023年1月には200,000件に達しています。[ 20 ] [ 21 ]

ファイル形式

[編集]

PDBが当初使用していたファイル形式はPDBファイル形式と呼ばれていました。当初の形式は、コンピュータのパンチカードの幅により、1行あたり80文字に制限されていました。1996年頃、CIF形式の拡張版である「高分子結晶構造情報ファイル」(macromolecular Crystallographic Information file)形式(mmCIF )が段階的に導入されました。mmCIFは2014年にPDBアーカイブの標準形式となりました。[ 22 ] 2019年、wwPDBは結晶構造解析手法に関する登録はmmCIF形式のみで受け付けると発表しました。[ 23 ]

PDBのXML版あるPDBMLは2005年に発表されました。[ 24 ]構造ファイルはこれら3つの形式のいずれかでダウンロードできますが、従来のPDB形式に適合しない構造が増えています。個々のファイルは、インターネットURL からグラフィックパッケージに簡単にダウンロードできます

  • PDB形式のファイルの場合は、例えば、http://www.pdb.org/pdb/files/4hhb.pdb.gzまたはhttp://pdbe.org/download/4hhb
  • PDBML(XML)ファイルの場合は、例えば、http://www.pdb.org/pdb/files/4hhb.xml.gzまたはhttp://pdbe.org/pdbml/4hhb

4hhb」はPDB識別子です。PDBに掲載される各構造には、4文字の英数字からなる識別子、すなわちPDB IDが付与されます。(これは生体分子の一意の識別子ではありません。なぜなら、同じ分子であっても、異なる環境や構造を持つ複数の構造が、異なるPDB IDでPDBに登録される場合があるからです。)

データの表示

[編集]

構造ファイルは、 JmolPymolVMDMolstarRasmolなど、いくつかの無料のオープンソースコンピュータプログラムを使用して表示できます。その他の非フリーのシェアウェアプログラムには、ICM-Browser、[ 25 ]、 MDL ChimeUCSF Chimera、Swiss-PDB Viewer、[ 26 ] 、 StarBiochem [ 27 ](タンパク質データバンクの統合検索機能を備えたJavaベースの対話型分子ビューア)、Sirius、VisProt3DS [ 28 ](アナグリフおよびその他のモードでの3D立体視によるタンパク質視覚化ツール)、Discovery Studioなどがあります。RCSB PDBのWebサイトには、無料および商用の分子視覚化プログラムとWebブラウザプラグインの広範なリストがあります。

参照

[編集]

参考文献

[編集]
  1. ^ wwPDB, Consortium (2019). 「タンパク質データバンク:3D高分子構造データの単一グローバルアーカイブ」 . Nucleic Acids Res . 47 (D1): 520– 528. doi : 10.1093/nar/gky949 . PMC 6324056. PMID 30357364 .  
  2. ^ wwPDB.org. 「wwPDB: 利用ポリシー」 . www.wwpdb.org . 2024年4月16日閲覧。
  3. ^ a b 「PDBe ホーム < ノード < EMBL-EBI 。pdbe.org
  4. ^ a b 「Protein Data Bank Japan – PDB Japan – PDBj」 . pdbj.org .
  5. ^ Bank、RCSBタンパク質データ。「RCSB PDB: ホームページ。rcsb.org
  6. ^ a b 「生物学的磁気共鳴バンク」。bmrb.wisc.edu
  7. ^ EMDB、EMBL-EBI。「EMDB: ホームページ。www.emdatabank.org
  8. ^ Berman, HM (2008年1月). 「タンパク質データバンク:歴史的視点」(PDF) . Acta Crystallographica Section A. A64 ( 1): 88– 95. doi : 10.1107/S0108767307035623 . PMID 18156675 .  
  9. ^ Laskowski RA, Hutchinson EG, Michie AD, Wallace AC, Jones ML, Thornton JM (1997年12月). 「PDBsum:すべてのPDB構造の要約と分析を掲載したWebベースのデータベース」. Trends Biochem. Sci . 22 (12): 488–90 . doi : 10.1016/S0968-0004(97)01140-7 . PMID 9433130 . 
  10. ^ Meyer EF (1997). 「タンパク質データバンクの初期の年」 . Protein Science . 6 (7). Cambridge University Press: 1591–1597 . doi : 10.1002/pro.5560060724 . PMC 2143743. PMID 9232661 .  
  11. ^ 「タンパク質データバンク」 Nature New Biology . 233. 1971. doi : 10.1038/newbio233223b0 .
  12. ^ Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE (2000年1月). タンパク質データバンク」 . Nucleic Acids Res . 28 (1): 235– 242. doi : 10.1093/nar/28.1.235 . PMC 102472. PMID 10592235 .  
  13. ^ 「構造バイオインフォマティクス研究協力機構」 RCSB.org .構造バイオインフォマティクス研究協力機構。 2007年2月5日時点のオリジナルよりアーカイブ。
  14. ^ 「RCSB PDBニュースレターアーカイブ」。RCSBタンパク質データバンク。
  15. ^ EMDB、EMBL-EBI。「EMDB: ホームページ。www.emdatabank.org
  16. ^ Curry E, Freitas A, O'Riáin S (2010). 「企業におけるコミュニティ主導のデータキュレーションの役割」 . D. Wood (編). Linking Enterprise Data . ボストン: Springer US. pp.  25– 47. ISBN 978-1-441-97664-2
  17. ^ 「PDB検証スイート」 . sw-tools.pdb.org .
  18. ^ Bank, RCSB Protein Data. 「PDB統計:実験手法と分子タイプ別のPDBデータ分布」 www.rcsb.org . 2025年11月4日閲覧
  19. ^ Burley SK, Berman HM, Bhikadiya C, Bi C, Chen L, Costanzo LD, et al. (wwPDBコンソーシアム) (2019年1月). 「タンパク質データバンク:3D高分子構造データの単一グローバルアーカイブ」 . Nucleic Acids Research . 47 (D1): D520 – D528 . doi : 10.1093/nar/ gky949 . PMC 6324056. PMID 30357364 .   
  20. ^ Anon (2014). 「ハードデータ:タンパク質データバンクが10万種類の構造に関する情報を提供し続けることは決して容易なことではなかった」 Nature 509 ( 7500): 260. doi : 10.1038/509260a . PMID 24834514 . 
  21. ^ タンパク質データバンク. 「PDB統計:公開構造の年間全体的増加」 . www.rcsb.org . 2023年1月12日閲覧
  22. ^ 「wwPDB: ファイル形式とPDB」 . wwpdb.org . 2020年4月1日閲覧
  23. ^ wwPDB.org. 「wwPDB: 2019 ニュース」 . wwpdb.org .
  24. ^ Westbrook J, Ito N, Nakamura H, Henrick K, Berman HM (2005年4月). 「PDBML: XMLによるアーカイブ高分子構造データの表現」 .バイオインフォマティクス. 21 (7): 988– 992. doi : 10.1093/bioinformatics/bti082 . PMID 15509603 . 
  25. ^ "ICM-Browser" . Molsoft LLC . 2013年4月6日閲覧。
  26. ^ 「Swiss PDB Viewer」 .スイスバイオインフォマティクス研究所. 2013年4月6日閲覧。
  27. ^ 「STAR: Biochem - ホーム」 . web.mit.edu .
  28. ^ "VisProt3DS" . Molecular Systems Ltd. 2013年4月6日閲覧
[編集]