オープン規制アノテーションデータベース( ORegAnnoとも呼ばれる)は、コミュニティベースの規制情報のキュレーションを促進するために設計されています。具体的には、このデータベースには、規制領域、転写因子 結合部位、規制バリアント、ハプロタイプに関する情報が含まれています。
概要
データ管理
各エントリには、EnsEMBL、dbSNP、Entrez Gene、NCBI Taxonomyデータベース、およびPubMedへの相互参照が維持されています。ORegAnno内の情報は定期的にマッピングされ、UCSC Genome Browserのトラックとして提供されます。さらに、各エントリは実験的エビデンスと関連付けられており、ORegAnno内にエビデンスオントロジーとして埋め込まれています。これにより、研究者は、裏付けとなるエビデンスの適切性について、独自の条件を用いて規制データを分析することができます。
ソフトウェアとデータへのアクセス
このプロジェクトはオープンソースであり、プロジェクトで作成されるすべてのデータとソフトウェアは自由にアクセスして使用できます。
データベースの内容
2006 年 12 月 20 日現在、ORegAnno には、2190 の転写因子結合部位に対する 4220 の調節配列 (非推奨レコードを除く)、1853 の調節領域 (エンハンサー、プロモーターなど)、17 の異なる生物 (主にDrosophila melanogaster、Homo sapiens、Mus musculus、Caenorhabditis elegans、およびRattus norvegicusの順) に対する 170 の調節多型、および 7 つの調節ハプロタイプが含まれていました。これらのレコードは、遺伝子調節コミュニティの 45 人の ORegAnno ユーザーによる 828 件の出版物の手動キュレーションによって取得されました。ORegAnno の出版物キューには 4215 件の出版物が含まれており、そのうち 858 件は終了、34 件は進行中 (オープン ステータス)、3321 件は注釈待ち (保留ステータス) でした。 ORegAnno は継続的に更新されるため、最新のデータベース コンテンツは www.oreganno.org ( Wayback Machineに 2021 年 3 月 21 日にアーカイブ) から取得する必要があります。
RegCreative Jamboree 2006
RegCreativeジャンボリーは、遺伝子発現を制御することが実験的に判明しているゲノム配列を永続的にキュレーションするというコミュニティの取り組みに刺激を受けて開催されました。この目標は、進化解析とトランスレーショナルリサーチにとって根本的に重要です。なぜなら、調節機構は種特異的な適応や疾患の病因に広く関与しているからです。この取り組みは、この課題の達成に尽力する志を同じくする科学者たちによる国際コンソーシアムの結成へと繋がりました。RegCreativeジャンボリーは、これらのグループが一堂に会し、遺伝子調節に関する現状を正確に評価し、調節情報をキュレーションするための標準策定に着手する最初の機会となりました。
ワークショップには、9カ国23機関から合計44名の研究者が参加しました。また、ENFIN、BioSapiens Network、FWO Research Foundation、Genome Canada、Genome British Columbiaからも資金提供を受けました。
これまでの RegCreative 会議の具体的な成果は次のとおりです。
- RegCreative Jamboreeに先立ち、参加者はアノテーター間の合意評価への参加を依頼されました。2つのORegAnnoミラーが構築され、キューにはアノテーション対象の同一の出版物セットが登録されていました。合計で18の出版物から33の重複アノテーションが収集されました(サーバー1では31の論文に対して79のアノテーション、サーバー2では21の論文に対して60のアノテーションが収集されました)。この作業は、アノテーターの効率性を確立するための基準として使用されました。
- 3日間のワークショップの最初の2日間は、実践的なアノテーション活動が行われました。合計で39名の研究者が、96本の論文から184のTFBSと317の規制領域を提供しました。これらの研究者の多くはORegAnnoシステムのトレーニングも受けており、経験豊富なユーザーコミュニティが大幅に増加しました。個々の種に対するこれらのアノテーションの貢献は、Homo sapiensで339件、 Mus musculusで42件、 Drosophila melanogasterで72件、 Ciona intestinalisで24件、 Rattus norvegicusで14件、Halocynthia roretziで6件、Ciona savignyiで2件、HIVで2件でした。これらのアノテーションのうち、1つの新しいデータセットがORegAnnoに追加されました。 274個のヒトエンハンサーが、アルフレッド・フェサード研究所のマキシミリアン・ヘスラー氏によって、Viselら著『Nucleic Acids Research』(2006年)に基づきプログラム的にアノテーションされました。合計130件の科学研究が詳細に検討されました。アノテーションが付与された論文は、HighWire Pressを通じて全文が閲覧可能な、ORegAnnoキューに登録された専門家によってキュレーションされた出版物から事前に選定されました。
- データ標準化の改善と関連オントロジーの開発が早急に必要です。具体的には、転写因子の命名規則、配列、細胞型、細胞株、組織、エビデンスに関するオントロジーのオープンアクセス開発と統合が含まれます。これらのニーズへの対応と優先順位付けのための基盤は、会議中にいくつかの方法で構築されました。
- 転写因子の命名問題は、TFcat のような完全に手動でキュレーションされた実装ではなく、手動でキュレーションが補完された DBD や flyTF などの転写因子予測パイプラインの統合についての議論を通じて解決されました。
- バッファロー大学のマーク・ハーフオン氏は、 Open Biomedical Ontologiesの一環として開発中のフレームワークにおいて、既存のORegAnnoおよびREDflyデータベース規約に基づくシーケンスオントロジーの改善に関する分科会を主導しました。これらの改善の暫定版は、ORegAnno wikiでご覧いただけます。
- 学習ベースのオントロジー開発は、アノテーションプロセスの不可欠な要素として広く認識されていました。これにより、アノテーターは統制語彙の制限に基づいてアノテーションを行うことが制限されることがなくなり、これらの例外はバックボーンオントロジーのさらなる開発に活用できるようになります。
- オントロジー開発は、ORegAnnoアノテーションフレームワークから分散化されるべきです。具体的には、ORegAnnoエビデンスオントロジーを廃止し、より広範なコミュニティ開発に利用できるようにすることが計画されています。
- 種固有のリソースを注釈フレームワークと統合することに新たな焦点を当てます。
- ワークショップの具体的な焦点は、規制アノテーションの促進におけるテキストマイニングの役割についてでした。MITREのLynette Hirschman博士とCNIOのMartin Krallinger博士がセッションを主導し、テキストマイニングが役立つ分野を明確化しました。テキストマイニングに基づく分析の短期的な目標は、ORegAnnoキューへのデータ投入と、ORegAnnoキューの専門家キュレーション部分を用いたテキストマイニングに基づく出版物取得の検証の両方に焦点が当てられました。後者の目標は、ルーヴェン大学のStein Aerts博士が主導しています。
参考文献
- Montgomery SB, Griffith OL, Sleumer MC, Bergman CM, Bilenky M, Pleasance ED, Prychyna Y, Zhang X, Jones SJ (2006). 「ORegAnno:文献由来のプロモーター、転写因子結合部位、および調節変異のためのオープンアクセスデータベースおよびキュレーションシステム」. Bioinformatics . 22 (5): 637–40 . doi : 10.1093/bioinformatics/btk027 . PMID 16397004.
- Griffith OL, Montgomery SB, Bernier B, Chu B, Kasaian K, Aerts S, Mahony S, Sleumer MC, Bilenky M, Haeussler M, Griffith M, Gallo SM, Giardine B, Hooghe B, Van Loo P, Blanco E, Ticoll A, Lithwick S, Portales-Casamar E, Donaldson IJ, Robertson G, Wadelius C, De Bleser P, Vlieghe D, Halfon MS, Wasserman W, Hardison R, Bergman CM, Jones SJ, Open Regulatory Annotation Consortium (2008). 「ORegAnno:規制アノテーションのためのオープンアクセス・コミュニティ主導型リソース」. Nucleic Acids Research . 36 (データベース号): D107–13. doi :10.1093/nar/gkm967. PMC 2239002 . PMID 18006570。
- Lesurf R, Cotto KC, Wang G, Griffith M, Kasaian K, Jones SJ, Montgomery SB, Griffith OL, Open Regulatory Annotation Consortium (2016). 「ORegAnno 3.0:コミュニティ主導の規制アノテーションリソース」. Nucleic Acids Research . 44 (D1): D126-32. doi :10.1093/nar/gkv1203. PMC 4702855. PMID 26578589 .
外部リンク
- ORegAnno 2021年3月21日アーカイブ - Wayback Machine
- RegCreative Jamboree 2006