バイオジャバ

バイオジャバ
バイオジャバ
原作者	アンドレアス・プルリッチ
開発者	アムル・アルホサリー、アンドレアス・プルリッチ、ドミトロ・グゼンコ、ハンネス・ブラントシュテッター＝ミュラー、ホセ・マヌエル・ドゥアルテ、トーマス・ダウン、マイケル・L・ホイヤー、ピーター・トロシン、ジャンジャン・ガオ、アレイクス・ラフィータ、ピーター・ローズ、スペンサー・ブリベン
初回リリース	2002年; 23年前 (2002)
安定版リリース	6.0.3 / 2021年12月19日; 3年前 (2021-12-19)
リポジトリ	github.com/biojava
書かれた	ジャワ
プラットフォーム	Java SEを搭載したWeb ブラウザ
入手可能な	英語
タイプ	バイオインフォマティクス
ライセンス	劣等GPL 2.1
Webサイト	biojava.org

BioJavaは、生物学データを処理するためのJavaツールを提供することを目的としたオープンソースソフトウェアプロジェクトです。 ^[1]^[2]^[3] BioJavaは、プログラミング言語Javaで書かれた、配列、タンパク質構造、ファイルパーサー、Common Object Request Broker Architecture （CORBA）相互運用性、分散アノテーションシステム（DAS）、 AceDBへのアクセス、動的プログラミング、および単純な統計ルーチンを操作するためのライブラリ関数のセットです。 BioJavaは、DNAおよびタンパク質配列から3Dタンパク質構造のレベルまで、さまざまなデータをサポートしています。 BioJavaライブラリは、タンパク質データバンク（PDB）ファイルの解析、Jmolとのやり取りなど、多くの日常的で単純なバイオインフォマティクスタスクを自動化するのに役立ちます。 ^[4]このアプリケーションプログラミングインタフェース（API）は、標準データ形式での作業を容易にし、迅速なアプリケーション開発と分析を可能にするさまざまなファイルパーサー、データモデル、およびアルゴリズムを提供します。

BioJava の追加プロジェクトには、rcsb-sequenceviewer、biojava-http、biojava-spark、rcsb-viewers などがあります。

特徴

BioJavaは、バイオインフォマティクスプログラミングの典型的なタスクの多くに対応するソフトウェアモジュールを提供します。これには以下が含まれます。

ローカルおよびリモートデータベースからのヌクレオチドおよびペプチド配列データへのアクセス
データベース/ファイルレコードの形式の変換
タンパク質構造の解析と操作
個々のシーケンスを操作する
類似配列の検索
配列アライメントの作成と操作

歴史と出版物

BioJavaプロジェクトは、Javaベースのバイオインフォマティクスツールの開発を簡素化するAPIを作成するという、トーマス・ダウンとマシュー・ポコックによる研究から生まれました。BioJavaは、12年以上にわたり60人以上の開発者によって開発されてきた活発なオープンソースプロジェクトです。BioJavaは、コードの重複を減らすことを目的とした数多くのBio*プロジェクトの1つです。^[5] BioJava以外にも、Bio*に属するプロジェクトとしては、BioPython、^[6] BioPerl、^[7] BioRuby、^[8] EMBOSS ^[9]などが挙げられます。

2012年10月に、BioJavaに関する最初の論文が発表されました。^[10]この論文では、BioJavaのモジュール、機能、目的が詳しく説明されています。

2018年11月現在、Google Scholarでは130件以上の引用が記録されている。^[11]

BioJavaに関する最新の論文は2017年2月に執筆されました。^[12]この論文では、BioJava-ModFinderという新しいツールについて詳しく説明されています。このツールは、タンパク質データバンク（PBD ）におけるタンパク質修飾の同定と3Dマッピングに使用できます。このパッケージは RCSB PDBウェブアプリケーションにも統合されており、配列図と構造表示にタンパク質修飾の注釈が追加されています。BioJava-ModFinderを用いて同定された3万件以上のタンパク質修飾構造は、RCSB PDBウェブサイトで閲覧可能です。

2008年に、BioJavaの最初のアプリケーションノートが公開されました。^[2] 2013年4月に元のCVSリポジトリからGitHubに移行されました。 ^[13]プロジェクトは別のリポジトリであるBioJava-legacyに移行され、現在もマイナーチェンジやバグ修正のためにメンテナンスされています。^[14]

バージョン3は2010年12月にリリースされました。これは以前のバージョンからのメジャーアップデートでした。このリリースの目的は、BioJavaを書き換え、小さく再利用可能なコンポーネントにモジュール化することでした。これにより、開発者はより容易に貢献できるようになり、依存関係も軽減されました。BioJava 3の新しいアプローチは、Apache Commonsをモデルにしています。

バージョン4は2015年1月にリリースされました。このバージョンでは、biojava-core、biojava-structure、biojava-structure-gui、biojava-phyloなどのパッケージに多くの新機能と改良が加えられました。BioJava 4.2.0は、Maven CentralからMavenを使用して利用できる最初のリリースでした。

バージョン5は2018年3月にリリースされました。これはプロジェクトにとって大きなマイルストーンとなります。BioJava 5.0.0は、ラムダ関数とストリーミングAPI呼び出しを導入したJava 8ベースの最初のリリースです。biojava-structureモジュールにも大きな変更が加えられました。また、従来の高分子構造データモデルは、mmCIFデータモデルをより正確に表現するように改良されました。これは2年以上ぶりのリリースです。その他の改善点としては、biojava-structureモジュールの最適化による対称性検出の改善や、MMTF形式のサポート追加などが挙げられます。その他の一般的な改善点としては、Javadocの更新、依存関係のバージョン管理、すべてのテストのJunit4化などが挙げられます。このリリースには、19人の貢献者による1,170件のコミットが含まれています。

モジュール

2014年から2015年にかけて、元のコードベースの大部分が書き換えられました。BioJava 3はバージョン1シリーズから明確に進化を遂げ、Apache Mavenと呼ばれる自動化ツールを使用して構築された複数の独立したモジュールで構成されています。^[15]これらのモジュールは、タンパク質構造の比較、ペアワイズおよびマルチプル配列アライメント、DNAおよびタンパク質配列の操作、アミノ酸特性の解析、タンパク質修飾の検出、タンパク質のディスオーダー領域の予測、生物学的に意味のあるデータモデルを用いた一般的なファイル形式のパーサーなど、最先端のツールを提供します。元のコードは、後方互換性のために引き続き利用可能な別のBioJavaレガシープロジェクトに移行されました。^[16]

BioJava 5 では、biojava-alignment と biojava-structure の 2 つのモジュールに新しい機能が導入されました。

次のセクションでは、いくつかの新しいモジュールについて説明し、BioJava の最新バージョンに含まれるいくつかの新機能を紹介します。

コアモジュール

このモジュールは、アミノ酸配列またはヌクレオチド配列をモデル化するためのJavaクラスを提供します。これらのクラスは、生物学者にとって馴染み深く、意味が分かりやすい名前が付けられているように設計されています。また、コンピュータ科学者やプログラマーにとって、遺伝子配列からタンパク質配列への変換過程を具体的に表現できます。

従来のBioJavaプロジェクトとBioJava3の大きな違いは、当時のJavaの革新的な技術をフレームワークが活用できるように設計されている点にあります。シーケンスは汎用インターフェースとして定義され、他のモジュールはあらゆるシーケンスに作用する任意のユーティリティを作成できます。DNAやタンパク質といった一般的なシーケンス専用のクラスが定義され、生物学者の使いやすさが向上しました。翻訳エンジンは、DNA、RNA、アミノ酸シーケンス間の変換を可能にすることで、この成果を真に活用しています。このエンジンは、コドンテーブルの選択、開始コドンのメチオニンへの変換、終止コドンのトリミング、リーディングフレームの指定、曖昧なシーケンスの処理といった詳細な処理が可能です。

配列の保存設計には、必要なメモリ容量を最小限に抑える特別な配慮が払われています。Proxyパターンなどの特別な設計パターンにより、開発者は配列をメモリに保存したり、UniProtなどのWebサービスからオンデマンドで取得したり、必要に応じてFASTAファイルから読み込んだりできるフレームワークを構築できました。後者2つのアプローチは、アプリケーションで参照されるまで配列データを読み込みません。これによりメモリを節約できます。このコンセプトは、NCBI GenBankや独自データベースなどの非常に大規模なゲノムデータセットの処理にも拡張できます。

タンパク質構造モジュール

このウィンドウには、IDが「4hhb.A」と「4hhb.B」の2つのタンパク質が互いにアラインメントされている様子が表示されています。コードは左側に示されています。これはBioJavaライブラリを用いて生成され、Jmolビューアを使用しています。^[4]アラインメントにはFATCAT ^{[17] の}厳密なアルゴリズムが使用されています。

タンパク質構造モジュールは、3D生体分子構造を表現および操作するためのツールを提供します。特にタンパク質構造の比較に重点を置いています。

以下のアルゴリズムが実装され、BioJava に組み込まれています。

柔軟体と剛体のアライメントのためのFATCATアルゴリズム。^[17]
標準的な組み合わせ拡張（CE）アルゴリズム。^[18]
タンパク質中の循環順列を検出できるCEの新しいバージョン。^[19]

これらのアルゴリズムは、RCSBタンパク質データバンク（PDB）^[20]タンパク質比較ツールや、毎週PDB内のすべてのタンパク質の体系的な比較を提供するために使用されています。^[21]

PDB ^[22]および mmCIF ^[23]ファイル形式のパーサーは、構造データを再利用可能なデータモデルに読み込むことを可能にします。この機能は、SIFTS プロジェクトで UniProt 配列と PDB 構造をマッピングするために使用されています。^[24] RCSB PDB からの情報は、手動でデータをダウンロードすることなく動的に取得できます。可視化のために、3D ビューア Jmol へのインターフェースが提供されています。^[4]

ゲノムおよびシーケンシングモジュール

このモジュールは、コアモジュールから遺伝子配列オブジェクトを作成することに重点を置いています。これは、オープンソースの遺伝子予測アプリケーションによって生成される以下の一般的な標準ファイル形式の解析をサポートすることで実現されています。

GeneMarkによって生成されたGTFファイル^[25]
GeneIDによって生成されたGFF2ファイル^[26]
Glimmerによって生成されたGFF3ファイル^[27]

その後、遺伝子配列オブジェクトはGFF3形式で書き出され、GMODにインポートされます。^[28] これらのファイル形式は明確に定義されていますが、ファイルに書き込まれる内容は非常に柔軟です。

次世代シーケンサーのFASTQファイル形式の一般的ないくつかのバリエーションに対する入出力サポートを提供するために、^[29]独立したシーケンシングモジュールが提供されています。このモジュールの使用方法に関するサンプルについては、こちらのリンクをご覧ください。

アライメントモジュール

このモジュールには、ペアワイズおよびマルチシーケンスアライメントを実行するためのクラスとメソッドがいくつか含まれています。シーケンスはシングルスレッドとマルチスレッドの両方でアライメントできます。BioJavaは、最適なグローバルアライメントのためにNeedleman-Wunsch ^{[30]アルゴリズムを、ローカルアライメントのために}Smith and Waterman ^[31]アルゴリズムを実装しています。ローカルアライメントとグローバルアライメントの両方の出力は標準形式で利用できます。これら2つのアルゴリズムに加えて、線形メモリのみを使用するため、非常に効率的にグローバルシーケンスアライメントを実行する Guan-Uberbacherアルゴリズム^{[32]の実装もあります。}

多重配列アライメントの場合、上で説明したいずれかの方法を使用して、多重配列アライメントを段階的に実行できます。

ModFinderモジュール

ModFinderモジュールは、タンパク質の3D構造におけるタンパク質修飾を識別および分類するための新しい手法を提供します。リン酸化、グリコシル化、ジスルフィド結合、金属キレート化など、400種類以上のタンパク質修飾が、PSI-MOD ^[34] 、 RESID ^[35]、RCSB PDB ^[36]のアノテーションに基づいて収集・整理されています。このモジュールは、タンパク質構造内の翻訳前、翻訳中、翻訳後のタンパク質修飾を検出するためのAPIも提供しています。このモジュールは、リン酸化を識別し、構造から事前に読み込まれたすべての修飾を出力することもできます。

アミノ酸特性モジュール

このモジュールは、タンパク質の正確な生理化学的特性を提供することを目指しています。このモジュールを用いて計算できる特性は以下の通りです。

分子量
消光係数
不安定性指数
脂肪族インデックス
水治療法の平均
等電点
アミノ酸組成

このモジュールには、一般的な同位体標識アミノ酸の正確な分子量が含まれています。また、シンプルなXML設定ファイルを使用して、新しいアミノ酸分子とその分子量を柔軟に定義することもできます。これは、質量分析実験など、正確な質量が重要な場合に有用です。

タンパク質障害モジュール

このモジュールの目的は、ユーザーにタンパク質分子の不規則性を発見する方法を提供することです。BioJavaには、RONN予測器のJava実装が含まれています。BioJava 3.0.5は、Javaのマルチスレッドサポートを利用して、最新のクアッドコアマシンにおいて、従来のC実装と比較して最大3.2倍^{[37]のパフォーマンス向上を実現します。}

このモジュールを使用するには 2 つの方法があります。

ライブラリ関数呼び出しの使用
コマンドラインの使用

このモジュールの機能は次のとおりです:

配列中の各残基の無秩序性の確率を計算する
FASTA入力ファイルからすべてのタンパク質の配列中の各残基の無秩序確率を計算する
FASTA入力ファイルから、単一のタンパク質配列またはすべてのタンパク質のタンパク質の無秩序領域を取得します。

Webサービスアクセスモジュール

バイオインフォマティクスの現在のトレンドとして、Webベースのツールの人気が高まっています。Webサービスモジュールを使用すると、RESTプロトコルを使用してバイオインフォマティクスサービスにアクセスできます。現在、NCBI Blast（Blast URLAPI経由、旧称QBlast）とHMMER Webサービスの2つのサービスが実装されています。^[38]

他の選択肢との比較

バイオインフォマティクス分野におけるカスタマイズされたソフトウェアの必要性は、多くのグループや個人によって認識されてきました。BioJavaと同様に、BioPerl、BioPython、BioRubyなどのオープンソースソフトウェアプロジェクトは、カスタマイズされたパイプラインや分析を容易に作成できる、複数の機能を備えたツールキットを提供しています。

名前からわかるように、上記のプロジェクトはそれぞれ異なるプログラミング言語を使用しています。これらのAPIはすべて類似したツールを提供しているため、どのような基準で選択すべきでしょうか？これらの言語のいずれか1つしか使い慣れていないプログラマーであれば、選択は簡単です。しかし、これらの言語をすべて理解し、業務に最適な言語を選択したいと考えている、幅広い知識を持つバイオインフォマティクス専門家にとっては、Bio*ツールキットのソフトウェアレビューで示された以下のガイドラインに基づいて選択することができます。^[5]

一般的に、個人または少人数のグループでのみ使用される小規模なプログラム（500行未満）の場合、PerlとBioPerlに勝るものはありません。これらの制約は、個人によるバイオインフォマティクスプログラミングの90%のニーズをカバーできると考えられます。

初心者にとって、そしてバイオ分野で、特に他の人と共有したりサポートされたりする大規模なプログラムを書く人にとって、Python の明快さと簡潔さは非常に魅力的です。

バイオインフォマティクス分野でのキャリアを志望していて、1 つの言語だけを学習したいと考えている人にとって、Java は最も幅広い一般的なプログラミングサポートを備えており、BioJava によるバイオ分野でのサポートも非常に優れており、現在では事実上のビジネス言語となっています (良くも悪くも新しい COBOL)。

これらのBio*プロジェクトとは別に、Javaを使用し、同様の目標を目指すSTRAPというプロジェクトがあります。BioJavaに似たSTRAPツールボックスも、バイオインフォマティクスのプログラムとスクリプトを設計するためのJavaツールキットです。BioJavaとSTRAPの類似点と相違点は次のとおりです。

類似点

どちらも、タンパク質配列に関する包括的なメソッドのコレクションを提供します。
どちらも、Java プログラマーがバイオインフォマティクスアルゴリズムをコーディングするために使用されます。
Java インターフェースを使用して、実装と定義を分離します。
どちらもオープンソースプロジェクトです。
どちらも、多くのシーケンスファイル形式を読み書きできます。

違い

BioJavaはヌクレオチド配列とペプチド配列に適用でき、ゲノム全体に適用可能です。STRAPは染色体全体のような長い配列を扱うことはできません。代わりにSTRAPは、単一タンパク質サイズのペプチド配列と3D構造を操作します。それでも、メモリ内に多数の配列と構造を保持できます。STRAPはタンパク質配列用に設計されていますが、ヌクレオチドのコーディングファイルも読み取ることができ、それをペプチド配列に変換します。
STRAPは、グラフィカルユーザーインターフェースの応答性が非常に高いため、非常に高速です。BioJavaは、速度がそれほど重要でない場合に使用されます。
BioJavaは、型安全性、オントロジー、オブジェクト設計の観点から優れた設計となっています。BioJavaは、配列、アノテーション、配列位置をオブジェクトで表現します。単一のアミノ酸やヌクレオチドでさえもオブジェクト参照です。速度向上のため、STRAPはオブジェクトの頻繁なインスタンス化や非finalオブジェクトメソッドの呼び出しを回避します。
- BioJava では、ペプチド配列とヌクレオチド配列はシンボルのリストです。シンボルはイテレータを使用して次々に取得することも、サブシーケンスを取得することもできます。利点は、シーケンス全体が必ずしもメモリ内に存在する必要がなく、プログラムがプログラミングエラーの影響を受けにくいことです。シンボルオブジェクトは、アルファベットの不変要素です。ただし STRAP では、シーケンスには単純なバイト配列、座標には float 配列が使用されます。速度に加えて、メモリ消費量が少ないことも基本データ型の重要な利点です。Strap のクラスは内部データを公開します。そのため、プログラマは、setter メソッドを使用する代わりにバイト配列を直接操作するなどのプログラミングエラーを犯す可能性があります。もう 1 つの欠点は、STRAP では、シーケンス内の文字が基になるアルファベットに対して有効かどうかのチェックが実行されないことです。
- BioJavaでは、配列の位置はクラスLocationによって実現されます。不連続なLocationオブジェクトは、複数の連続するRangeLocationオブジェクトまたはPointLocationオブジェクトで構成されます。一方、クラスStrapProteinでは、単一の残基の位置は 0 からcountResidues()-1までの整数で示されます。複数の位置はブール配列で示されます。指定されたインデックスが true の場合は選択されていることを意味し、false の場合は選択されていないことを意味します。
BioJavaは、メソッドが無効なパラメータで呼び出されると例外をスローします。STRAPは、時間のかかるThrowableオブジェクトの生成を回避します。代わりに、メソッド内のエラーはNaN、-1、またはnullの戻り値で示されます。しかし、プログラム設計の観点からは、Throwableオブジェクトの方が優れています。
BioJavaでは、Sequenceオブジェクトはペプチド配列またはヌクレオチド配列のいずれかです。StrapProteinは、コーディングヌクレオチド配列が読み込まれ、タンパク質に翻訳された場合、両方を同時に保持できます。ヌクレオチド配列とペプチド配列の両方が同じStrapProteinオブジェクトに含まれます。コーディング領域または非コーディング領域を変更すると、それに応じてペプチド配列も変化します。

BioJavaを使用したプロジェクト

以下のプロジェクトでは BioJava が使用されています。

代謝経路ビルダー: 遺伝子、タンパク質、反応、代謝経路間のつながりを探索するためのソフトウェアスイート
DengueInfo ( Wayback Machineで 2006-12-08 にアーカイブ) : ミドルウェアで BioJava を使用し、biosql データベースと通信するデング熱ゲノム情報ポータル。
Dazzle: BioJava ベースの DAS サーバー。
BioSense : BioJava を統合した IDBS の分析ソフトウェアプラットフォームである InforSense Suite のプラグイン。
Bioclipse : 分子、配列、タンパク質、スペクトルなどの強力な編集機能と視覚化機能を備えた、無料のオープンソースの化学およびバイオインフォマティクスワークベンチ。
PROMPT: タンパク質セットの比較とマッピングのための無料のオープンソースフレームワークおよびアプリケーション。ほとんどの入力データ形式はBioJavaで処理されます。
Cytoscape : 分子相互作用ネットワークを視覚化するオープンソースのバイオインフォマティクスソフトウェアプラットフォーム。
BioWeka: オープンソースの生物学データマイニングアプリケーション。
Geneious: 分子生物学ツールキット。
MassSieve: 質量分析プロテオミクスデータを分析するためのオープンソースアプリケーション。
STRAP: 多重配列アライメントおよび配列ベースの構造アライメント用のツール。
Jstacs: 生物学的配列の統計分析と分類のためのJavaフレームワーク
jLSTM: タンパク質分類のための「長期短期記憶」
LaJolla: 何千もの構造を高速にアラインメントするインデックス構造を使用する、RNA およびタンパク質用のオープンソース構造アラインメントツール。使いやすいコマンドラインインターフェイスが含まれています。
GenBeans: 主に分子生物学と配列解析に重点を置いたバイオインフォマティクス用のリッチクライアントプラットフォーム。
JEnsembl: Ensemblデータシステムのバージョン対応Java API。^[39]
MUSI：非常に大規模なペプチドまたは核酸データセットから複数の特異性を識別するための統合システム。^[40]
Bioshell:構造バイオインフォマティクスのためのユーティリティライブラリ^[41]

参照

参考文献

^ Prlić A, Yates A, Bliven SE, et al. (2012年10月). 「BioJava：2012年のバイオインフォマティクス向けオープンソースフレームワーク」. Bioinformatics . 28 (20): 2693–5 . doi :10.1093/bioinformatics/bts494. PMC 3467744. PMID 22877863 .
^ ab Holland RC, Down TA, Pocock M, Prlić A, Huen D, James K, et al. (2008). 「BioJava：バイオインフォマティクスのためのオープンソースフレームワーク」.バイオインフォマティクス. 24 (18): 2096–7 . doi :10.1093/bioinformatics/btn397. PMC 2530884. PMID 18689808 .
^ VS MathaとP Kangueane、2009年、「バイオインフォマティクス：概念に基づく入門」、2009年、p26
^ abc Hanson, RM (2010) Jmol 結晶構造可視化におけるパラダイムシフト。
^ ab Mangalam H (2002). 「Bio*ツールキット - 概要」. Briefings in Bioinformatics . 3 (3): 296– 302. doi : 10.1093/bib/3.3.296 . PMID 12230038.
^ Cock PJ, Antao T, Chang JT, et al. (2009年6月). 「Biopython: 計算分子生物学およびバイオインフォマティクスのための無料で利用可能なPythonツール」. Bioinformatics . 25 (11): 1422–3 . doi :10.1093/bioinformatics/btp163. PMC 2682512. PMID 19304878 .
^ Stajich JE, Block D, Boulez K, et al. (2002年10月). 「Bioperlツールキット：ライフサイエンスのためのPerlモジュール」. Genome Res . 12 (10): 1611–8 . doi :10.1101/gr.361602. PMC 187536. PMID 12368254 .
^ Goto N, Prins P, Nakao M, Bonnal R, Aerts J, 片山剛志 (2010年10月). 「BioRuby: Rubyプログラミング言語向けバイオインフォマティクスソフトウェア」. Bioinformatics . 26 (20): 2617–9 . doi :10.1093/bioinformatics/btq475. PMC 2951089. PMID 20739307 .
^ Rice P, Longden I, Bleasby A (2000年6月). 「EMBOSS：欧州分子生物学オープンソフトウェアスイート」. Trends Genet . 16 (6): 276–7 . doi :10.1016/S0168-9525(00)02024-2. PMID 10827456.
^ Prlić A, Yates A, Bliven SE, et al. (2012年10月). 「BioJava：2012年のバイオインフォマティクス向けオープンソースフレームワーク」. Bioinformatics . 28 (20): 2693–5 . doi :10.1093/bioinformatics/bts494. PMC 3467744. PMID 22877863 .
^ 「Google Scholar」. scholar.google.com . 2018年11月22日閲覧。
^ Gao, Jianjiong; Prlić, Andreas; Bi, Chunxiao; Bluhm, Wolfgang F.; Dimitropoulos, Dimitris; Xu, Dong; Bourne, Philip E.; Rose, Peter W. (2017-02-17). 「BioJava-ModFinder: Protein Data Bankの3D構造におけるタンパク質修飾の同定」. Bioinformatics . 33 (13): 2047– 2049. doi :10.1093/bioinformatics/btx101. ISSN 1367-4803. PMC 5870676. PMID 28334105 .
^ 「歴史」。 2015年1月30日閲覧。
^ BioJava-legacy 2013年1月9日アーカイブ、Wayback Machine
^ Maven、Apache。「Maven」。Apache。
^ BioJava レガシープロジェクト 2013年1月9日アーカイブ、Wayback Machine
^ ab Ye Y, Godzik A (2003年10月). 「ツイストを許容するアラインメント済みフラグメントペアの連鎖による柔軟な構造アラインメント」.バイオインフォマティクス. 19 (Suppl 2): ii246–55. doi : 10.1093/bioinformatics/btg1086 . PMID 14534198.
^ Shindyalov IN, Bourne PE (1998年9月). 「最適経路の増分的コンビナトリアル拡張（CE）によるタンパク質構造アライメント」. Protein Eng . 11 (9): 739–47 . doi : 10.1093/protein/11.9.739 . PMID 9796821.
^ Bliven S, Prlić A (2012). 「タンパク質における循環置換」. PLOS Comput. Biol . 8 (3) e1002445. Bibcode :2012PLSCB...8E2445B. doi : 10.1371/journal.pcbi.1002445 . PMC 3320104. PMID 22496628 .
^ Rose PW, Beran B, Bi C, 他 (2011年1月). 「RCSBタンパク質データバンク：ウェブサイトとウェブサービスの再設計」Nucleic Acids Res . 39 (データベース号): D392–401. doi :10.1093/nar/gkq1021. PMC 3013649. PMID 21036868 .
^ Prlić A, Bliven S, Rose PW, et al. (2010年12月). 「RCSB PDBウェブサイトにおける事前計算済みタンパク質構造アラインメント」.バイオインフォマティクス. 26 (23): 2983–5 . doi :10.1093/bioinformatics/btq572. PMC 3003546. PMID 20937596 .
^ Bernstein FC, Koetzle TF, Williams GJ, et al. (1977年5月). 「タンパク質データバンク：高分子構造のためのコンピュータベースのアーカイブファイル」. J. Mol. Biol . 112 (3): 535–42 . doi :10.1016/s0022-2836(77)80200-3. PMID 875032.
^ Fitzgerald, PMD et al. (2006) 高分子辞書 (mmCIF). Hall, SR
^ Velankar S, McNeil P, Mittard-Runte V, et al. (2005年1月). 「E-MSD：バイオインフォマティクスのための統合データリソース」. Nucleic Acids Res . 33 (データベース号): D262–5. doi :10.1093/nar/gki058. PMC 540012. PMID 15608192 .
^ Besemer J, Borodovsky M (2005年7月). 「GeneMark：原核生物、真核生物、ウイルスにおける遺伝子検索のためのウェブソフトウェア」Nucleic Acids Res . 33 (Web Server 版): W451–4. doi :10.1093/nar/gki487. PMC 1160247. PMID 15980510 .
^ Blanco E, Abril JF (2009). 「GeneIDを用いた新規ゲノムアセンブリにおける計算的遺伝子アノテーション」. DNA配列解析のためのバイオインフォマティクス. 分子生物学手法. 第537巻. pp. 243–61 . doi :10.1007/978-1-59745-251-9_12. ISBN 978-1-58829-910-9. PMID 19378148。
^ Kelley DR, Liu B, Delcher AL, Pop M, Salzberg SL (2012年1月). 「分類とクラスタリングによるメタゲノム配列のGlimmerを用いた遺伝子予測」. Nucleic Acids Res . 40 (1): e9. doi :10.1093/nar/gkr1067. PMC 3245904. PMID 22102569 .
^ Stein LD, Mungall C, Shu S, et al. (2002年10月). 「ジェネリックゲノムブラウザ：モデル生物システムデータベースの構成要素」Genome Res . 12 (10): 1599–610 . doi :10.1101/gr.403602. PMC 187535. PMID 12368253 .
^ Cock PJ, Fields CJ, Goto N, Heuer ML, Rice PM (2010年4月). 「品質スコア付きシーケンス用のSanger FASTQファイル形式とSolexa/Illumina FASTQバリアント」. Nucleic Acids Res . 38 (6): 1767–71 . doi :10.1093/nar/gkp1137. PMC 2847217. PMID 20015970 .
^ Needleman SB, Wunsch CD (1970年3月). 「2つのタンパク質のアミノ酸配列における類似性の検索に適用可能な一般的な方法」. J. Mol. Biol . 48 (3): 443– 53. doi :10.1016/0022-2836(70)90057-4. PMID 5420325.
^ Smith TF, Waterman MS (1981年3月). 「共通分子サブシーケンスの同定」. J. Mol. Biol . 147 (1): 195–7 . CiteSeerX 10.1.1.63.2897 . doi :10.1016/0022-2836(81)90087-5. PMID 7265238.
^ Guan X, Uberbacher EC (1996年2月). 「フレームシフトエラーを含むDNAおよびタンパク質配列のアライメント」. Comput. Appl. Biosci . 12 (1): 31– 40. doi : 10.1093/bioinformatics/12.1.31 . PMID 8670617.
^ Chen K, Jung YS, Bonagura CA, et al. (2002年2月). 「Azotobacter vinelandii のフェレドキシンI：[4Fe-4S]2+/+還元電位の変化に対する配列および構造比較アプローチ」. J. Biol. Chem . 277 (7): 5603–10 . doi : 10.1074/jbc.M108916200 . PMID 11704670.
^ Montecchi-Palazzi L, Beavis R, Binz PA, et al. (2008年8月). 「タンパク質修飾データの表現のためのPSI-MODコミュニティ標準」Nat. Biotechnol . 26 (8): 864–6 . doi :10.1038/nbt0808-864. PMID 18688235. S2CID 205270043.
^ Garavelli JS (2004年6月). 「リソースおよび注釈ツールとしてのタンパク質修飾RESIDデータベース」.プロテオミクス. 4 (6): 1527–33 . doi : 10.1002/pmic.200300777 . PMID 15174122. S2CID 25712150.
^ Berman HM, Westbrook J, Feng Z, et al. (2000年1月). 「タンパク質データバンク」. Nucleic Acids Res . 28 (1): 235–42 . doi :10.1093/nar/28.1.235. PMC 102472. PMID 10592235 .
^ Yang ZR, Thomson R, McNeil P, Esnouf RM (2005年8月). 「RONN：タンパク質中の天然ディスオーダー領域の検出に応用されたバイオ基底関数ニューラルネットワーク技術」.バイオインフォマティクス. 21 (16): 3369–76 . doi : 10.1093/bioinformatics/bti534 . PMID 15947016.
^ Finn RD, Clements J, Eddy SR (2011年7月). 「HMMERウェブサーバー：インタラクティブな配列類似性検索」. Nucleic Acids Res . 39 (ウェブサーバー号): W29–37. doi :10.1093/nar/gkr367. PMC 3125773. PMID 21593126 .
^ Paterson T, Law A (2012年11月). 「JEnsembl: Ensemblデータシステム向けのバージョン対応Java API」. Bioinformatics . 28 (21): 2724–31 . doi :10.1093/bioinformatics/bts525. PMC 3476335. PMID 22945789 .
^ Kim T, Tyndel MS, Huang H, et al. (2012年3月). 「MUSI：大規模ペプチドまたは核酸データセットから複数の特異性を識別するための統合システム」. Nucleic Acids Res . 40 (6): e47. doi :10.1093/nar/gkr1294. PMC 3315295. PMID 22210894 .
^ Gront D, Kolinski A (2008年2月). 「構造バイオインフォマティクスのためのユーティリティライブラリ」.バイオインフォマティクス. 24 (4): 584–5 . doi : 10.1093/bioinformatics/btm627 . PMID 18227118.

外部リンク

公式サイト

[BioJava-1] Prlić A, Yates A, Bliven SE, et al. (2012年10月). 「BioJava：2012年のバイオインフォマティクス向けオープンソースフレームワーク」. Bioinformatics . 28 (20): 2693–5 . doi :10.1093/bioinformatics/bts494. PMC 3467744. PMID 22877863 .

[pmid18689808-2] Holland RC, Down TA, Pocock M, Prlić A, Huen D, James K, et al. (2008). 「BioJava：バイオインフォマティクスのためのオープンソースフレームワーク」.バイオインフォマティクス. 24 (18): 2096–7 . doi :10.1093/bioinformatics/btn397. PMC 2530884. PMID 18689808 .

[Mathura-3] VS MathaとP Kangueane、2009年、「バイオインフォマティクス：概念に基づく入門」、2009年、p26

[Jmol-4] Hanson, RM (2010) Jmol 結晶構造可視化におけるパラダイムシフト。

[pmid12230038-5] Mangalam H (2002). 「Bio*ツールキット - 概要」. Briefings in Bioinformatics . 3 (3): 296– 302. doi : 10.1093/bib/3.3.296 . PMID 12230038.

[6] Cock PJ, Antao T, Chang JT, et al. (2009年6月). 「Biopython: 計算分子生物学およびバイオインフォマティクスのための無料で利用可能なPythonツール」. Bioinformatics . 25 (11): 1422–3 . doi :10.1093/bioinformatics/btp163. PMC 2682512. PMID 19304878 .

[7] Stajich JE, Block D, Boulez K, et al. (2002年10月). 「Bioperlツールキット：ライフサイエンスのためのPerlモジュール」. Genome Res . 12 (10): 1611–8 . doi :10.1101/gr.361602. PMC 187536. PMID 12368254 .

[8] Goto N, Prins P, Nakao M, Bonnal R, Aerts J, 片山剛志 (2010年10月). 「BioRuby: Rubyプログラミング言語向けバイオインフォマティクスソフトウェア」. Bioinformatics . 26 (20): 2617–9 . doi :10.1093/bioinformatics/btq475. PMC 2951089. PMID 20739307 .

[9] Rice P, Longden I, Bleasby A (2000年6月). 「EMBOSS：欧州分子生物学オープンソフトウェアスイート」. Trends Genet . 16 (6): 276–7 . doi :10.1016/S0168-9525(00)02024-2. PMID 10827456.

[BioJava2-10] Prlić A, Yates A, Bliven SE, et al. (2012年10月). 「BioJava：2012年のバイオインフォマティクス向けオープンソースフレームワーク」. Bioinformatics . 28 (20): 2693–5 . doi :10.1093/bioinformatics/bts494. PMC 3467744. PMID 22877863 .

[11] 「Google Scholar」. scholar.google.com . 2018年11月22日閲覧。

[12] Gao, Jianjiong; Prlić, Andreas; Bi, Chunxiao; Bluhm, Wolfgang F.; Dimitropoulos, Dimitris; Xu, Dong; Bourne, Philip E.; Rose, Peter W. (2017-02-17). 「BioJava-ModFinder: Protein Data Bankの3D構造におけるタンパク質修飾の同定」. Bioinformatics . 33 (13): 2047– 2049. doi :10.1093/bioinformatics/btx101. ISSN 1367-4803. PMC 5870676. PMID 28334105 .

[13] 「歴史」。 2015年1月30日閲覧。

[14] BioJava-legacy 2013年1月9日アーカイブ、Wayback Machine

[15] Maven、Apache。「Maven」。Apache。

[16] BioJava レガシープロジェクト 2013年1月9日アーカイブ、Wayback Machine

[fatcat-17] Ye Y, Godzik A (2003年10月). 「ツイストを許容するアラインメント済みフラグメントペアの連鎖による柔軟な構造アラインメント」.バイオインフォマティクス. 19 (Suppl 2): ii246–55. doi : 10.1093/bioinformatics/btg1086 . PMID 14534198.

[18] Shindyalov IN, Bourne PE (1998年9月). 「最適経路の増分的コンビナトリアル拡張（CE）によるタンパク質構造アライメント」. Protein Eng . 11 (9): 739–47 . doi : 10.1093/protein/11.9.739 . PMID 9796821.

[19] Bliven S, Prlić A (2012). 「タンパク質における循環置換」. PLOS Comput. Biol . 8 (3) e1002445. Bibcode :2012PLSCB...8E2445B. doi : 10.1371/journal.pcbi.1002445 . PMC 3320104. PMID 22496628 .

[20] Rose PW, Beran B, Bi C, 他 (2011年1月). 「RCSBタンパク質データバンク：ウェブサイトとウェブサービスの再設計」Nucleic Acids Res . 39 (データベース号): D392–401. doi :10.1093/nar/gkq1021. PMC 3013649. PMID 21036868 .

[21] Prlić A, Bliven S, Rose PW, et al. (2010年12月). 「RCSB PDBウェブサイトにおける事前計算済みタンパク質構造アラインメント」.バイオインフォマティクス. 26 (23): 2983–5 . doi :10.1093/bioinformatics/btq572. PMC 3003546. PMID 20937596 .

[22] Bernstein FC, Koetzle TF, Williams GJ, et al. (1977年5月). 「タンパク質データバンク：高分子構造のためのコンピュータベースのアーカイブファイル」. J. Mol. Biol . 112 (3): 535–42 . doi :10.1016/s0022-2836(77)80200-3. PMID 875032.

[23] Fitzgerald, PMD et al. (2006) 高分子辞書 (mmCIF). Hall, SR

[24] Velankar S, McNeil P, Mittard-Runte V, et al. (2005年1月). 「E-MSD：バイオインフォマティクスのための統合データリソース」. Nucleic Acids Res . 33 (データベース号): D262–5. doi :10.1093/nar/gki058. PMC 540012. PMID 15608192 .

[25] Besemer J, Borodovsky M (2005年7月). 「GeneMark：原核生物、真核生物、ウイルスにおける遺伝子検索のためのウェブソフトウェア」Nucleic Acids Res . 33 (Web Server 版): W451–4. doi :10.1093/nar/gki487. PMC 1160247. PMID 15980510 .

[26] Blanco E, Abril JF (2009). 「GeneIDを用いた新規ゲノムアセンブリにおける計算的遺伝子アノテーション」. DNA配列解析のためのバイオインフォマティクス. 分子生物学手法. 第537巻. pp. 243–61 . doi :10.1007/978-1-59745-251-9_12. ISBN 978-1-58829-910-9. PMID 19378148。

[27] Kelley DR, Liu B, Delcher AL, Pop M, Salzberg SL (2012年1月). 「分類とクラスタリングによるメタゲノム配列のGlimmerを用いた遺伝子予測」. Nucleic Acids Res . 40 (1): e9. doi :10.1093/nar/gkr1067. PMC 3245904. PMID 22102569 .

[28] Stein LD, Mungall C, Shu S, et al. (2002年10月). 「ジェネリックゲノムブラウザ：モデル生物システムデータベースの構成要素」Genome Res . 12 (10): 1599–610 . doi :10.1101/gr.403602. PMC 187535. PMID 12368253 .

[29] Cock PJ, Fields CJ, Goto N, Heuer ML, Rice PM (2010年4月). 「品質スコア付きシーケンス用のSanger FASTQファイル形式とSolexa/Illumina FASTQバリアント」. Nucleic Acids Res . 38 (6): 1767–71 . doi :10.1093/nar/gkp1137. PMC 2847217. PMID 20015970 .

[30] Needleman SB, Wunsch CD (1970年3月). 「2つのタンパク質のアミノ酸配列における類似性の検索に適用可能な一般的な方法」. J. Mol. Biol . 48 (3): 443– 53. doi :10.1016/0022-2836(70)90057-4. PMID 5420325.

[31] Smith TF, Waterman MS (1981年3月). 「共通分子サブシーケンスの同定」. J. Mol. Biol . 147 (1): 195–7 . CiteSeerX 10.1.1.63.2897 . doi :10.1016/0022-2836(81)90087-5. PMID 7265238.

[32] Guan X, Uberbacher EC (1996年2月). 「フレームシフトエラーを含むDNAおよびタンパク質配列のアライメント」. Comput. Appl. Biosci . 12 (1): 31– 40. doi : 10.1093/bioinformatics/12.1.31 . PMID 8670617.

[33] Chen K, Jung YS, Bonagura CA, et al. (2002年2月). 「Azotobacter vinelandii のフェレドキシンI：[4Fe-4S]2+/+還元電位の変化に対する配列および構造比較アプローチ」. J. Biol. Chem . 277 (7): 5603–10 . doi : 10.1074/jbc.M108916200 . PMID 11704670.

[34] Montecchi-Palazzi L, Beavis R, Binz PA, et al. (2008年8月). 「タンパク質修飾データの表現のためのPSI-MODコミュニティ標準」Nat. Biotechnol . 26 (8): 864–6 . doi :10.1038/nbt0808-864. PMID 18688235. S2CID 205270043.

[35] Garavelli JS (2004年6月). 「リソースおよび注釈ツールとしてのタンパク質修飾RESIDデータベース」.プロテオミクス. 4 (6): 1527–33 . doi : 10.1002/pmic.200300777 . PMID 15174122. S2CID 25712150.

[36] Berman HM, Westbrook J, Feng Z, et al. (2000年1月). 「タンパク質データバンク」. Nucleic Acids Res . 28 (1): 235–42 . doi :10.1093/nar/28.1.235. PMC 102472. PMID 10592235 .

[37] Yang ZR, Thomson R, McNeil P, Esnouf RM (2005年8月). 「RONN：タンパク質中の天然ディスオーダー領域の検出に応用されたバイオ基底関数ニューラルネットワーク技術」.バイオインフォマティクス. 21 (16): 3369–76 . doi : 10.1093/bioinformatics/bti534 . PMID 15947016.

[38] Finn RD, Clements J, Eddy SR (2011年7月). 「HMMERウェブサーバー：インタラクティブな配列類似性検索」. Nucleic Acids Res . 39 (ウェブサーバー号): W29–37. doi :10.1093/nar/gkr367. PMC 3125773. PMID 21593126 .

[39] Paterson T, Law A (2012年11月). 「JEnsembl: Ensemblデータシステム向けのバージョン対応Java API」. Bioinformatics . 28 (21): 2724–31 . doi :10.1093/bioinformatics/bts525. PMC 3476335. PMID 22945789 .

[40] Kim T, Tyndel MS, Huang H, et al. (2012年3月). 「MUSI：大規模ペプチドまたは核酸データセットから複数の特異性を識別するための統合システム」. Nucleic Acids Res . 40 (6): e47. doi :10.1093/nar/gkr1294. PMC 3315295. PMID 22210894 .

[41] Gront D, Kolinski A (2008年2月). 「構造バイオインフォマティクスのためのユーティリティライブラリ」.バイオインフォマティクス. 24 (4): 584–5 . doi : 10.1093/bioinformatics/btm627 . PMID 18227118.