| コンテンツ | |
|---|---|
| 説明 | 一塩基多型データベース |
| 生物 | ホモ・サピエンス |
| 接触 | |
| 研究センター | 国立バイオテクノロジー情報センター |
| 主な引用 | PMID 21097890 |
| 発売日 | 1998 |
| アクセス | |
| データ形式 | ASN.1、FASTA、XML |
| Webサイト | ncbi |
| ダウンロードURL | ftp://ftp.ncbi.nih.gov/snp/ |
| ウェブサービスURL | EUtils SOAP |
一塩基多型データベース[ 1 ] ( dbSNP ) は、国立生物工学情報センター(NCBI) が国立ヒトゲノム研究所(NHGRI)と共同で開発およびホストしている、異なる種内および種間における遺伝的変異の無料公開アーカイブです。データベースの名前は、一塩基多型( SNP) という 1 つのクラスの多型のみのコレクションであることを示していますが、実際には、(1) SNP、(2) 短い欠失および挿入多型(インデル/DIP)、(3)マイクロサテライトマーカーまたは短いタンデムリピート(STR)、(4) 多塩基多型 (MNP)、(5) ヘテロ接合性配列、および (6) 名前付きバリアントという幅広い分子変異が含まれています。[ 2 ] dbSNP は、明らかに中立的な多型、既知の表現型に対応する多型、および変異のない領域を受け入れます。これは、NCBIの公開核酸およびタンパク質配列コレクションであるGenBankを補完するために1998年9月に作成されました。 [ 2 ]
2017年、NCBIはdbSNPにおけるヒト以外の生物のサポートを停止しました。[ 3 ]ビルド153(2019年8月リリース)の時点で、dbSNPにはホモサピエンスの6億7500万以上の異なる変異体を表す約20億件の提出物が蓄積されていました。

目的
dbSNPは生物学研究者を支援するために実装されたオンラインリソースです。その目標は、特定されたすべての遺伝子変異を含む単一のデータベースとして機能することです。このデータベースは、遺伝子に基づくさまざまな自然現象の調査に使用できます。具体的には、dbSNP内にカタログ化された分子変異へのアクセスは、物理マッピング、集団遺伝学、進化関係の調査などの基礎研究に役立つほか、特定の関心部位における変異の量を迅速かつ容易に定量化できます。さらに、dbSNPは薬理ゲノム学や遺伝子変異と表現型特性との関連の応用研究を導きます。[ 4 ] NCBIのウェブサイトによると、「このような新しく刺激的な研究[dbSNP]への長期的投資は、人類生物学の進歩だけでなく、現代医療の実践に革命をもたらすことが期待されます。」
提出
1. 出典
dbSNPは当初、個々の研究室、共同多型探索プロジェクト、大規模ゲノムシーケンシングセンター、他のSNPデータベース(SNPコンソーシアム、 HapMapなど)、民間企業など、幅広いソースからあらゆる生物の変異体データの提出を受け付けていました。 [ 5 ] 2017年9月1日、dbSNPは非ヒト変異体のデータの提出受付を停止し、2か月後にはインタラクティブウェブサイトと関連NCBIサービスで非ヒト変異体のデータの提供を停止しました。現在、dbSNPはヒト変異体データのみを受け付け、提供しています。
2. 記録の種類
提出されたすべての変異には、提出SNP ID番号(「ss#」)が付与されます。[ 5 ]このアクセッション番号は、その提出に対する安定した一意の識別子です。提出された一意のSNPレコードには、参照SNP ID番号(「rs#」、または「refSNPクラスター」)も付与されます。しかし、特に臨床的に関連する変異の場合、1つの変異について複数のレコードがdbSNPに提出される可能性があります。これに対応するため、dbSNPは提出された同一のSNPレコードを、これも一意で安定した識別子である単一の参照SNPレコードに定期的にまとめます(下記参照)。[ 4 ]
3. 提出方法
dbSNPに変異を提出するには、まず提出者ハンドルを取得する必要があります。これは、提出を担当する研究室を識別するものです。[ 4 ]次に、著者は関連情報とデータを含む提出ファイルを完成させる必要があります。提出される記録には、以下の表に記載されている10の必須情報が含まれている必要があります。[ 4 ]提出に必要なその他の情報には、連絡先情報、出版情報(タイトル、ジャーナル、著者、年)、分子タイプ(ゲノムDNA、cDNA、ミトコンドリアDNA、葉緑体DNA)、生物名などがあります。[ 4 ]
| 要素 | 説明 |
|---|---|
| シーケンスコンテキスト(必須) | dbSNP への提出の必須要素は、提出される変異の明確な位置です。dbSNP では現在、RefSeq または INSDC 配列上の主張された位置として変異の位置を提出することが最低限求められています。 |
| 対立遺伝子(必須) | 対立遺伝子は各変異クラスを定義します。dbSNP は、送信スキームで単一ヌクレオチド変異を G、A、T、または C として定義し、変異の対立遺伝子定義では N などのあいまいな IUPAC コードを許可しません。 |
| 方法(必須) | 各提出者は、提出物において、変異の検定に使用した手法、またはアレル頻度の推定に使用した手法のいずれかを定義します。dbSNPは、一般的な実験手法をクエリフィールドとして使用することでクエリを容易に行えるよう、手法を手法クラスごとにグループ化しています。提出者は、手法に関するその他の詳細を、手法のフリーテキスト記述で提供します。 |
| 主張される対立遺伝子の起源(必須) | 提出者は、変異体が特定のアレル起源であることを裏付ける実験的証拠を添えた声明(アサーション)を提出できます。単一のrefSNPに対するアサーションは要約され、生殖細胞系列または不明の属性値が付与されます。 |
| 人口(必須) | 各提出者は、集団サンプルを、変異を最初に特定するために使用した集団、または集団固有のアレル頻度の指標を特定するために使用した集団のいずれかとして定義します。実験デザインによっては、これらの集団が同一の集団となる場合があります。 |
| サンプルサイズ(オプション) | dbSNPには2つのサンプルサイズフィールドがあります。1つはSNPASSAY SAMPLE SIZEフィールドで、変異を最初に確認または発見するために使用されたサンプル内の染色体数を報告します。もう1つはSNPPOPUSE SAMPLE SIZEフィールドで、アレル頻度の推定値を計算する際の分母として使用される染色体数を報告します。 |
| 集団特異的アレル頻度(オプション) | 頻度データは、測定に使用された実験方法の精度に応じて、対立遺伝子数またはビン化された頻度間隔として dbSNP に送信されます。dbSNP には、各送信者によって定義され、送信された変異の検証に使用される特定の集団サンプルの対立遺伝子頻度の記録が含まれています。 |
| 集団特異的な遺伝子型頻度(オプション) | 対立遺伝子と同様に、遺伝子型は dbSNP に送信できる集団内での頻度を持ち、送信された変異を検証するために使用されます。 |
| 個々の遺伝子型 | dbSNP は、DNA 配列を公開データベース (HapMap や 1000 Genomes プロジェクトなど) に保存することに同意したドナーから提供されたサンプルの個々の遺伝子型を受け入れます。 |
| 検証情報(オプション) | 検証セクションを通じて提出者によって直接検証されたアッセイでは、変動を確認するために使用された証拠の種類が表示されます。 |
リリース
dbSNP によって取得された新しい情報は、一連の「ビルド」(データの改訂とリリース)の形式で定期的に公開されます。[ 4 ]新しいビルドのリリーススケジュールはありません。代わりに、通常、新しいゲノムビルドが利用可能になったときに、ゲノムに関連付けられたカタログ化された変異があると想定してビルドがリリースされます。[ 6 ]これは約 3~4 か月ごとに発生します。ゲノム配列は時間の経過とともに改善される可能性があるため、以前のビルドの参照 SNP (「refSNP」) と新しく送信された SNP は、新しく利用可能なゲノム配列に再マッピングされます。複数の送信された SNP が同じ場所にマッピングされる場合、1 つの refSNP クラスターにクラスター化され、参照 SNP ID 番号が割り当てられます。ただし、2 つの refSNP クラスター レコードが同じ場所にマッピングされる (つまり、同一である) ことが判明した場合、dbSNP はそれらのレコードもマージします。この場合、小さい方のrefSNP番号ID(つまり最も古いレコード)が両方のレコードを表すことになり、大きい方のrefSNP番号IDは廃止されます。これらの廃止されたrefSNP番号IDは、新しいレコードには再利用されません。2つのrefSNPレコードの統合が発生した場合、その変更は追跡され、以前のrefSNP番号IDは引き続き検索クエリとして使用できます。この同一レコードの統合プロセスにより、dbSNP内の冗長性が削減されます。[ 6 ]
上記のマージ基準には2つの例外があります。第一に、異なるクラスの変異(例:SNPとDIP)はマージされません。第二に、文献で引用されている臨床的に重要なrefSNPは「precious(貴重)」と呼ばれます。このようなrefSNPを排除するようなマージは、後々混乱を招く可能性があるため、決して行われません。[ 6 ]
検索
1. 方法
dbSNPはEntrez SNP検索ツールを用いて検索できます。検索には、SS番号ID、refSNP番号ID、遺伝子名、実験方法、集団クラス、集団詳細、出版物、マーカー、アレル、染色体、塩基位置、ヘテロ接合性範囲、ビルド番号など、様々なクエリを使用できます。[ 6 ] [ 7 ]さらに、バッチクエリを用いて複数の結果を同時に取得することも可能です。[ 6 ]検索では、クエリ語に一致するrefSNP番号IDと、そのrefSNPクラスターで利用可能な情報の要約が返されます。
2. ツール/データ
refSNP クラスターに利用可能な情報には、個々の提出物の基本情報(「提出物」を参照)と、複数の提出物からのデータの組み合わせから利用可能な情報(例:ヘテロ接合性、遺伝子型頻度)が含まれます。refSNP クラスターをより詳細に調査するためのツールが多数あります。マップ ビューでは、ゲノム内の変異の位置と他の近くの変異が表示されます。別のツールである遺伝子ビューでは、遺伝子内の変異の位置(遺伝子内にある場合)、古いコドンと新しいコドン、両方でコードされているアミノ酸、および変更が同義か非同義かが報告されます。シーケンス ビューアでは、イントロン、エクソン、およびその他の遠い変異と近い変異に対する変異の位置が表示されます。エンコードされたタンパク質の 3D 画像を表示する 3D 構造マッピングも利用できます。
dbSNP は、ヌクレオチド、タンパク質、遺伝子、分類、構造のデータベースのほか、PubMed、UniSTS、PMC、OMIM、UniGene など、他の多くの NCBI リソースにもリンクされています。
3. 検証ステータス
検証ステータスには、変異を裏付ける証拠のカテゴリーが列挙されています。これには、(1) 複数の独立した提出、(2) 頻度または遺伝子型データ、(3) 提出者による確認、(4) 少なくとも2本の染色体におけるすべての対立遺伝子の観察、(5) HapMapによる遺伝子型解析、(6) 1000ゲノムプロジェクトによる配列解析が含まれます。[ 6 ]
データ品質の問題
dbSNPに掲載されているデータの質は多くの研究グループから疑問視されており、[ 8 ] [ 9 ] [ 10 ] [ 11 ] [ 12 ] [ 13 ] 、ジェノタイピングやベースコーリングのエラーによる偽陽性率の高さを疑っている。これらの誤りは、提出者が(1) 非常に類似しているが異なるDNA配列のバイオインフォマティクスによるアライメントを軽視した場合、および/または(2)類似しているが異なるDNA配列を区別できないプライマーを用いたPCRを行った場合、dbSNPに容易に入力される可能性がある。[ 8 ] Mitchell et al. (2004) [ 9 ]は4つの研究[ 10 ] [ 11 ] [ 12 ] [ 13 ]をレビューし、dbSNPではSNPの偽陽性率が15~17%であり、偽陽性ではないSNPの約80%でマイナーアレル頻度が10%を超えていると結論付けました。同様に、Musemeci et al. (2010) [ 8 ]は、dbSNPのバイアレルコーディングSNPの最大8.32%が非常に類似したDNA配列(つまりパラロガス遺伝子)のアーティファクトであり、これらのエントリを一塩基差異(SND)と呼んでいると述べています。dbSNPの高いエラー率は意外ではないかもしれません。人間の2,370万のrefSNPエントリのうち、1,450万のみが検証されており、残りの920万が候補SNPとなっています。しかし、Musemeci et al. (2010) [ 8 ]によれば、refSNPレコードに提供されている検証コードでさえ、部分的にしか役に立たない。HapMap検証のみでSNDの数が減少した(3% vs. 8%)が、この方法のみを受け入れると、dbSNPの実際のSNPの半分以上が削除されてしまう。著者らはまた、Leeグループからの提出物の1つの情報源にエラーが蔓延していることにも言及している。これらの提出物の20%はSNDである(提出物全体では8%)。しかし、著者らが指摘するように、これらの提出物をすべて無視すると、多くの実際のSNPが削除されてしまう。
dbSNPのエラーは、候補遺伝子の関連研究[ 14 ]やハプロタイプに基づく調査[ 15 ]の妨げになることがあります。また、エラーによって関連研究で誤った結論が増加する場合もあります。[ 8 ]偽SNPをテストすることでテストされるSNPの数を増やすと、より多くの仮説検定が必要になります。しかし、これらの偽SNPは実際には形質と関連付けることができない可能性があるため、真のSNPのみをテストした場合の厳密なテストに必要なレベルよりもアルファレベルが低下し、偽陰性率が上昇します。Musemeci et al. (2010) [ 8 ]は、陰性の関連研究の著者は、以前の研究で偽SNP(SND)を調べ、分析から除外することを提案しました。
dbSNPからのデータの引用方法
個々の配列はrefSNPクラスターID番号(例:rs206437)で参照できます。dbSNPは、2001年のSherryらの論文「Sherry, ST, Ward, MH, Kholodov, M., Baker, J., Phan, L., Smigielski, EM, Sirotkin, K. (2001). dbSNP: the NCBI database of genetic variation. Nucleic Acids Research, 29: 308–311. [ 5 ] 」を用いて参照してください。
参照
参考文献
- ^ Wheeler DL, Barrett T, Benson DA, et al. (2007年1月). 「国立バイオテクノロジー情報センターのデータベースリソース」 . Nucleic Acids Res . 35 (データベース号): D5–12. doi : 10.1093/nar/ gkl1031 . PMC 1781113. PMID 17170002 .
- ^ a b Sherry ST, Ward M; Sirotkin, K. (1999). 「dbSNP - 一塩基多型およびその他のマイナー遺伝的変異のデータベース」 . Genome Research . 9 (8): 677– 679. doi : 10.1101/gr.9.8.677 . PMID 10447503. S2CID 10775908 .
- ^ 「dbSNPおよびdbVarにおける非ヒトゲノム生物データのサポートの段階的廃止」 2017年5月9日。 2017年7月9日閲覧。
- ^ a b c d e f Kitts A; Sherry S (2009). 「ヌクレオチド配列変異の単一ヌクレオチド多型データベース(dbSNP)」国立生物工学情報センター(米国)。
{{cite journal}}:ジャーナルを引用するには|journal=(ヘルプ)が必要です - ^ a b c Sherry ST, Ward MH, Kholodov M, Baker J, Phan L, Smigielski EM, Sirotkin K, et al. (2001). 「dbSNP: NCBIの遺伝的変異データベース」. Nucleic Acids Res . 29 (1): 308– 311. doi : 10.1093/nar/29.1.308 . PMC 29783. PMID 11125122 .
- ^ a b c d e f NCBI (2010). 「一塩基多型データベース(dbSNP)に関するよくある質問」国立生物工学情報センター(米国).
{{cite journal}}:ジャーナルを引用するには|journal=(ヘルプ)が必要です - ^ Phillips, C (2007) . 「SNP解析のためのオンラインリソース:レビューとルートマップ」. Molecular Biotechnology . 35 (1): 65– 97. doi : 10.1385/MB:35:1:65 . PMID 17401150. S2CID 8569553 .
- ^ a b c d e f Musemeci L, Arthur JW, Cheung FS, Hoque S, Lippman S, Reichardt JK, et al. (2010年1月). 「dbSNPデータベースにおける一塩基差異(SND)は、ジェノタイピングおよびハプロタイピング研究においてエラーを引き起こす可能性がある」 . Human Mutation . 31 (1): 67– 73. doi : 10.1002/humu.21137 . PMC 2797835. PMID 19877174 .
- ^ a b Mitchell AA, Zwick ME, Chakravarti A, Cutler DJ, et al. (2004). 「遺伝子型判定のエラー率とパターンの違いによるdbSNP確定率とアレル頻度分布の不一致」 .バイオインフォマティクス. 20 (7): 1022– 1032. doi : 10.1093/bioinformatics/bth034 . PMID 14764571 .
- ^ a b Carlson CS, Eberle MA, Rieder MJ, Smith JD, Kruglyak L, Nickerson DA, et al. (2003). 「ヒトの全ゲノム関連研究には追加のSNPと連鎖不平衡解析が必要である」 . Nature Genetics . 33 (4): 518– 521. doi : 10.1038/ng1128 . PMID 12652300. S2CID 11640599 .
- ^ a b Cutler DJ, Zwick ME, Carrasquillo MM, Yohn CT, Tobin KP, Kashuk C, Matthews DJ, Shah NA, Elchler EE, Warrington JA, Chakravarti A, et al. (2001). 「マイクロアレイを用いたハイスループット変異検出およびジェノタイピング」 . Genome Research . 11 (11): 1913– 1925. doi : 10.1101/gr.197201 . PMC 311146. PMID 11691856 .
- ^ a b Gabriel SB; Schaffner SF; Nguyen H; Moore JM; Roy J; Blumenstiel B; Higgins J; DeFelice M; Lochner A; Faggart M; Liu-Cordero SN; Rotimi C; Adeyemo A; Cooper R; Ward R; Lander ES; Daly MJ; Altshuler D; et al. (2003). 「ヒトゲノムにおけるハプロタイプブロックの構造」 . Science . 296 ( 5576): 2225– 2229. Bibcode : 2002Sci...296.2225G . doi : 10.1126/science.1069424 . PMID 12029063. S2CID 10069634 .
- ^ a b Reich DE, Gabriel SB, Altshuler D, et al. (2003). 「SNPデータベースの品質と完全性」 . Nature Genetics . 33 (4): 457– 458. doi : 10.1038/ng1133 . PMID 12652301. S2CID 6303430 .
- ^ Dvornyk V, Long JR, Xiong DH, Liu PY, Zhao LJ, Shen H, Zhang YY, Liu YJ, Rocha-Sancher S, Xiao P, Recker RR, Deng HW, et al. (2004). 「複合疾患研究におけるパブリックドメインのSNPデータの現状の限界:肥満および骨粗鬆症の10候補遺伝子の検証」BMC Genetics . 5 : 4. doi : 10.1186/1471-2156-5-4 . PMC 395827 . PMID 15113403 .
- ^ de Bakker PI; Yelensky R; Pe'er I; Gabriel SB; Daly MJ; Altshuler D; et al. (2005). 「遺伝的関連研究における効率と検出力」Nature Genetics . 37 (11): 1217– 1223. doi : 10.1038/ng1669 . PMID 16244653 . S2CID 15464860 .