ハプロタイプ推定

遺伝学においてハプロタイプ推定(「フェージング」とも呼ばれる)とは、遺伝子型データからハプロタイプを統計的に推定するプロセスを指します。最も一般的な状況は、個体群から一連の多型部位における遺伝子型を収集する場合です。例えば、ヒト遺伝学におけるゲノムワイド関連研究では、マイクロアレイを用いて数千人の個体について20万~500万のSNPにおける遺伝子型を収集します。ハプロタイプ推定法はこれらのデータセットの解析に用いられ、HapMapプロジェクト1000ゲノムプロジェクトなどの参照データベースからアレルの遺伝子型補完[1] [2]を可能にします。

遺伝子型とハプロタイプ

遺伝子型は各遺伝子座における対立遺伝子の順序のない組み合わせを測定するのに対し、ハプロタイプは個体の両親から一緒に受け継がれた複数の遺伝子座の遺伝情報を表します。理論的には、考えられるハプロタイプの数は、検討対象の各遺伝子座の対立遺伝子数の積に等しくなります。特に、ほとんどのSNPは2対立遺伝子です。したがって、ヘテロ接合性の2対立遺伝子座を考慮する場合、遺伝子型の根底にある可能性のあるハプロタイプのペアが存在することになりますたとえば、遺伝子型がそれぞれa 1a 2b 1b 2である 2 つの二対立遺伝子座 A と B ( ) を考えると、次のハプロタイプが得られます: a 1 _b 1、 a 1 _b 2、 a 2 _b 1およびa 2 _b 2 ( 「_」は対立遺伝子が同じ染色体上にあることを示します)。 N {\displaystyle N} 2 N {\displaystyle 2^{N}} N = 2 {\displaystyle N=2}

ハプロタイプ推定法

ハプロタイプの推定には多くの統計的手法が提案されています。初期のアプローチのいくつかは、単純な多項式モデルを用いていました。このモデルでは、サンプルと一致する可能性のある各ハプロタイプに未知の頻度パラメータが与えられ、これらのパラメータは期待値最大化アルゴリズムを用いて推定されました。これらのアプローチは一度に少数のサイトしか処理できませんでしたが、後に順次バージョン、具体的にはSNPHAP法が開発されました

ハプロタイプ推定に最も正確で広く使用されている方法は、何らかの形の隠れマルコフモデル(HMM)を使用して推論を実行します。長い間、PHASE [3]が最も正確な方法でした。PHASE は、ハプロタイプの結合分布に関する合体理論のアイデアを活用した最初の方法でした。この方法では、各個人のハプロタイプが他のすべてのサンプルからのハプロタイプの現在の推定値を条件として更新されるギブス サンプリングアプローチを使用します。ギブス サンプラーの条件付き分布には、他のハプロタイプのセットを条件とするハプロタイプの分布の近似値が使用されました。PHASE は、HapMap プロジェクトからハプロタイプを推定するために使用されました。PHASE は速度によって制限され、ゲノムワイド関連研究のデータ セットには適用できませんでした。

fastPHASE法[4]とBEAGLE法[5]は、 GWASサイズのデータ​​セットに適用可能なハプロタイプクラスターモデルを導入しました。その後、PHASE法に類似していますが、はるかに高速なIMPUTE2法[6]とMaCH法[7]が導入されました。これらの手法は、他のサンプルのKハプロタイプ推定値のサブセットを条件として、各サンプルのハプロタイプ推定値を反復的に更新します。IMPUTE2法は、精度を向上させるために、どのハプロタイプのサブセットを条件として用いるかを慎重に選択するという考え方を導入しました。精度はKの増加とともに向上しますが、計算量は2乗に比例します。 O ( K 2 ) {\displaystyle O(K^{2})}

SHAPEIT1法は、個体の遺伝子型と一致するハプロタイプ空間のみで動作する線形複雑度法を導入することで大きな進歩を遂げました。[8]その後、HAPI-UR法は非常によく似た方法を提案しました。[9] SHAPEIT2 [10]は、SHAPEIT1とIMPUTE2の優れた特徴を組み合わせて、効率と精度を向上させています。 O ( K ) {\displaystyle O(K)}

参照

参考文献

  1. ^ Marchini, J.; Howie, B. (2010). 「ゲノムワイド関連研究のための遺伝子型インピュテーション」. Nature Reviews Genetics . 11 (7): 499–511 . doi :10.1038/nrg2796. PMID  20517342. S2CID  1465707
  2. ^ Howie, B.; Fuchsberger, C.; Stephens, M.; Marchini, J.; Abecasis, GAR (2012). 「ゲノムワイド関連研究におけるプレフェージングによる迅速かつ正確な遺伝子型補完」Nature Genetics . 44 (8): 955– 959. doi :10.1038/ng.2354. PMC 3696580 . PMID  22820512. 
  3. ^ Stephens, M.; Smith, NJ; Donnelly, P. (2001). 「人口データからのハプロタイプ再構築のための新しい統計手法」. The American Journal of Human Genetics . 68 (4): 978– 989. doi :10.1086/319501. PMC 1275651. PMID 11254454  . 
  4. ^ Scheet, P.; Stephens, M. (2006). 「大規模集団遺伝子型データのための高速かつ柔軟な統計モデル:欠損遺伝子型とハプロタイプ相の推定への応用」.アメリカ人類遺伝学ジャーナル. 78 (4): 629– 644. doi :10.1086/502802. PMC 1424677. PMID 16532393  . 
  5. ^ Browning, SR; Browning, BL (2007). 「局所的ハプロタイプクラスタリングを用いた全ゲノム関連研究のための迅速かつ正確なハプロタイプフェージングと欠損データ推論」.アメリカ人類遺伝学ジャーナル. 81 (5): 1084– 1097. doi :10.1086/521987. PMC 2265661. PMID 17924348  . 
  6. ^ Howie, BN; Donnelly, P.; Marchini, J. (2009). Schork, Nicholas J (編). 「次世代ゲノムワイド関連研究のための柔軟かつ正確な遺伝子型補完法」. PLOS Genetics . 5 (6) e1000529. doi : 10.1371/journal.pgen.1000529 . PMC 2689936. PMID  19543373 . 
  7. ^ Li, Y.; Willer, CJ; Ding, J.; Scheet, P.; Abecasis, GAR (2010). 「MaCH: 配列データと遺伝子型データを用いたハプロタイプおよび未観測遺伝子型の推定」.遺伝疫学. 34 (8): 816– 834. doi :10.1002/gepi.20533. PMC 3175618. PMID 21058334  . 
  8. ^ Delaneau, O.; Marchini, J.; Zagury, JFO (2011). 「数千のゲノムを対象とした線形複雑性フェージング法」. Nature Methods . 9 (2): 179– 181. doi :10.1038/nmeth.1785. PMID  22138821. S2CID  13765612.
  9. ^ Williams, AL; Patterson, N.; Glessner, J.; Hakonarson, H.; Reich, D. (2012). 「数千もの遺伝子型サンプルのフェージング」. The American Journal of Human Genetics . 91 (2): 238– 251. doi :10.1016/j.ajhg.2012.06.013. PMC 3415548. PMID  22883141 . 
  10. ^ Delaneau, O.; Zagury, JF; Marchini, J. (2012). 「疾患および集団遺伝学研究のための改良型全染色体フェージング」Nature Methods . 10 (1): 5– 6. doi :10.1038/nmeth.2307. PMID  23269371. S2CID  205421216.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Haplotype_estimation&oldid=1313936685"