生物統計学(バイオメトリクスとも呼ばれる)は、統計学の一分野であり、臨床医学と公衆衛生への応用を中心に、生物科学の幅広い分野に統計的手法を適用しています。[ 1 ]この分野は、実験計画、実験データと観察データの収集と分析、そして結果の解釈を網羅しています。医療統計学 と密接に関連しています。
生物統計モデリングは、多くの現代生物学理論において重要な部分を占めています。遺伝学研究は、その黎明期から、観察された実験結果を理解するために統計的概念を用いてきました。遺伝学者の中には、手法やツールの開発によって統計学の進歩に貢献した者もいます。グレゴール・メンデルは、エンドウ豆科における遺伝子分離パターンを調査する遺伝学研究を開始し、収集されたデータを説明するために統計を用いました。1900年代初頭、メンデルのメンデル遺伝説が再発見された後、遺伝学と進化ダーウィニズムの間には理解の隔たりが生じました。フランシス・ゴルトンはメンデルの発見をヒトのデータを用いて拡張しようと試み、各祖先から遺伝の一部が無限系列を構成するという異なるモデルを提唱しました。彼はこれを「祖先遺伝の法則」と呼びました。彼の考えは、遺伝的継承は両親からのみ、そして両親それぞれから半分ずつ受け継がれるというメンデルの結論を支持するウィリアム・ベイトソンによって強く反対されました。この論争は、ラファエル・ウェルドン、アーサー・ダキンフィールド・ダービシャー、カール・ピアソンといったゴルトンの考えを支持する生物測定学者と、チャールズ・ダヴェンポートやヴィルヘルム・ヨハンセンといったベイトソン(およびメンデル)の考えを支持するメンデル主義者との間で激しい論争を引き起こした。後に、生物測定学者はゴルトンの結論を異なる実験で再現することができず、メンデルの考えが優勢となった。1930年代までに、統計的推論に基づくモデルがこれらの相違点を解決し、新ダーウィン主義に基づく現代進化総合論を生み出すのに役立った。
これらの相違点を解決したことで、集団遺伝学の概念が定義され、遺伝学と進化学が統合されました。集団遺伝学の確立とこの統合を主導した3人は、いずれも統計学に依拠し、生物学におけるその応用を発展させました。
これらの人々や他の生物統計学者、数理生物学者、統計に関心のある遺伝学者は、進化生物学と遺伝学を一貫性と整合性のある全体として統合し、定量的にモデル化できるようにするのに貢献しました。
この全体的な発展と並行して、ダーシー・トンプソンの『成長と形態について』における先駆的な研究も、生物学研究に定量的な規律を加えるのに貢献しました。
統計的推論は根本的に重要であり、しばしば必要となるにもかかわらず、生物学者の間では、質的に明らかでない結果を信用せず、軽視する傾向があったかもしれない。ある逸話では、トーマス・ハント・モーガンがカリフォルニア工科大学の自分の学科からフリーデン計算機を禁止した際、「私は1849年にサクラメント川の岸辺で金鉱を探していた男のようだ。少しの知恵があれば、手を伸ばして大きな金塊を拾い上げることができる。そして、それができる限り、私の学科の誰にも、砂金採掘で希少資源を無駄にさせない」と述べたとされている[ 4 ] 。
生命科学におけるあらゆる研究は、私たちが抱くであろう科学的な疑問に答えるために提案されます。この疑問に高い確度で答えるためには、正確な結果が必要です。主要仮説と研究計画を正しく定義することで、現象を理解するための意思決定における誤りを減らすことができます。研究計画には、研究課題、検証する仮説、実験デザイン、データ収集方法、データ分析の視点、そして関連する費用などが含まれます。実験統計の3つの基本原則、すなわちランダム化、反復、局所的管理 に基づいて研究を進めることが不可欠です。
研究課題は研究の目的を定義するものです。研究は研究課題を軸に展開されるため、簡潔であると同時に、科学や知識、そしてその分野の向上につながる可能性のある、興味深く斬新なテーマに焦点を当てる必要があります。科学的な問いをどのように立てるかを明確にするために、網羅的な文献レビューが必要になる場合もあります。そうすることで、この研究は科学界に付加価値をもたらす有用なものとなるでしょう。[ 5 ]
研究の目的が定まると、研究課題に対する可能な回答を提案し、この問いを仮説へと変換することができる。主要な仮説は帰無仮説(H0 )と呼ばれ、通常はトピックに関する永続的な知識、または現象の明白な発生に基づき、詳細な文献レビューによって裏付けられる。これは、テストの状況下におけるデータに対する標準的な期待される回答であると言える。一般に、H0は処理間に関連性がないと仮定する。一方、対立仮説はH0の否定である。これは、処理と結果の間にある程度の関連性があると仮定する。しかし、仮説は質問調査と、それに対する期待される回答と予期しない回答によって裏付けられる。[ 5 ]
例として、2つの異なる食事システム下にある類似の動物(例えばマウス)のグループを考えてみましょう。研究課題は「最適な食事は何か」です。この場合、H 0は、2つの食事の間にマウスの代謝に差がない(H 0 : μ 1 = μ 2)という仮説となり、対立仮説は、食事が動物の代謝に異なる影響を与える(H 1 : μ 1 ≠ μ 2)という仮説となります。
仮説は、研究者が主要な問いに答えたいという関心に基づいて定義されます。対立仮説は複数の仮説から成り立つ場合があります。対立仮説は、観測パラメータ間の差異だけでなく、差異の程度(例えば、差異が大きいか小さいか)も想定します。
通常、研究の目的は、ある現象が集団に与える影響を理解することです。生物学では、集団とは、特定の時期に特定の地域に生息する、特定の種の個体全体を指します。生物統計学では、この概念は研究対象となる様々な集団に拡張されます。ただし、生物統計学における集団とは、個体だけでなく、その生物の特定の構成要素の総体を指します。例えば、動物の場合はゲノム全体、動物の場合は精子細胞全体、植物の場合は葉面積全体などです。
母集団のすべての要素から測定値を得ることは不可能です。そのため、統計的推論においてはサンプリングプロセスが非常に重要です。サンプリングとは、母集団全体から代表的な部分をランダムに抽出し、母集団についての事後推論を行うことと定義されます。そのため、サンプルは母集団全体の変動を最もよく捉える可能性があります。[ 6 ]サンプルサイズは、研究の範囲から利用可能なリソースまで、いくつかの要素によって決定されます。臨床研究では、劣等性、同等性、優位性などの試験の種類がサンプルサイズを決定する上で重要な要素となります。[ 5 ]
実験計画は、実験統計学のこれらの基本原則を支えるものです。実験のすべての区画に処理をランダムに割り当てるための基本的な実験計画が 3 つあります。完全ランダム化計画、ランダム化ブロック計画、要因計画です。実験内では、処理をさまざまな方法で配置できます。農業では、正しい実験計画が優れた研究の根幹であり、環境が区画(植物、家畜、微生物)に大きく影響するため、研究内での処理の配置が不可欠です。これらの主な配置は、文献では「格子」、「不完全ブロック」、「分割プロット」、「拡張ブロック」など、さまざまな名前で呼ばれています。すべての計画には、推論中に誤差推定を行うために、研究者が決定した対照区が含まれる場合があります。
臨床研究では、サンプル数は通常、他の生物学的研究よりも少なく、ほとんどの場合、環境の影響を制御または測定することができます。ランダム化比較臨床試験が一般的に用いられ、その結果は通常、症例対照研究やコホート研究などの観察研究デザインと比較されます。[ 7 ]
データ収集方法はサンプルサイズや実験設計に大きな影響を与えるため、研究計画では考慮する必要があります。
データ収集はデータの種類によって異なります。質的データの場合、構造化された質問票や観察によって収集され、疾患の有無や重症度を考慮し、発生レベルを分類するためのスコア基準が用いられます。[ 8 ]量的データの場合、機器を用いて数値情報を測定することによって収集されます。
農業および生物学研究では、収穫量データとその構成要素は計量尺度によって取得できます。しかし、植物の害虫や病害は、被害レベルに応じたスコアスケールを考慮した観察によって得られます。特に遺伝学的研究では、表現型解析および遺伝子型解析のためのハイスループットプラットフォームとして、圃場および実験室でのデータ収集のための最新の方法を検討する必要があります。これらのツールは、より大規模な実験を可能にすると同時に、人間のみによるデータ収集方法よりも短時間で多くの区画を評価することを可能にします。最後に、収集されたすべての関心データは、さらなる分析のために整理されたデータフレームに保存する必要があります。
データは、表やグラフ(折れ線グラフ、棒グラフ、ヒストグラム、散布図など)で表現できます。また、中心傾向や変動性といった指標は、データの概要を説明するのに非常に役立ちます。以下にいくつかの例を挙げます。
表の種類の一つに頻度表があります。これは行と列に並べられたデータで構成され、頻度とはデータの出現回数または繰り返し回数です。頻度は以下のいずれかです。[ 9 ]
絶対値: 特定の値が出現する回数を表します。
相対的: 絶対頻度を総数で割ることによって得られる。
次の例では、同じ生物の 10 個のオペロン内の遺伝子の数を示します。
| 遺伝子番号 | 絶対頻度 | 相対頻度 |
|---|---|---|
| 1 | 0 | 0 |
| 2 | 1 | 0.1 |
| 3 | 6 | 0.6 |
| 4 | 2 | 0.2 |
| 5 | 1 | 0.1 |

折れ線グラフは、ある値が時間などの他の指標に対してどのように変化するかを表します。一般的に、値は縦軸に、時間の変化は横軸に示されます。[ 11 ]
棒グラフは、カテゴリデータを、値に比例した高さ(縦棒)または幅(横棒)を示す棒グラフで表すグラフです。棒グラフは、表形式でも表現できるイメージを提供します。[ 11 ]
棒グラフの例では、2010年から2016年までの12月のブラジルの出生率を示しています。[ 10 ] 2016年12月の急激な低下は、ブラジルの出生率におけるジカウイルスの流行を反映しています。

ヒストグラム(または頻度分布)は、データセットを表にまとめ、均一なクラスまたは不均一なクラスに分類したグラフ表現です。カール・ピアソンによって初めて導入されました。[ 12 ]
散布図は、データセットの値を表示するために直交座標系を用いる数学的な図です。散布図は、データを点の集合として表し、各点は横軸上の位置を決定する変数の値と縦軸上の位置を決定する変数の値を表します。[ 13 ]散布図は、散布図、散布図表、散布図表、散布図表とも呼ばれます。[ 14 ]
算術平均は、値の集合 ( ) の合計をこの集合の項目数 ( ) で割ったものです。
中央値はデータセットの中央にある値です。
モードとは、データセットの中で最も頻繁に出現する値である。[ 15 ]
| タイプ | 例 | 結果 |
|---|---|---|
| 平均 | (2 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 11)/ 9 | 4 |
| 中央値 | 2、3、3、3、3、3、3、4、4、11 | 3 |
| モード | 2、3、3、3、3、3、4、4、11 | 3 |
箱ひげ図は、数値データのグループをグラフで表す手法です。最大値と最小値は線で表され、四分位範囲(IQR)はデータの25~75%を表します。外れ値は円でプロットされることがあります。
2種類の異なるデータ間の相関関係は散布図などのグラフで推測できますが、数値情報によって検証する必要があります。そのため、相関係数が必要となります。相関係数は、関連の強さを反映する数値を提供します。[ 11 ]

ピアソン相関係数は、2つの変数XとYの関連性の尺度です。この係数は通常、母集団の場合はρ (ロー)、標本の場合はrで表され、-1から1の間の値を取ります。ρ = 1は 完全な正の相関、ρ = -1は完全な負の相関、ρ = 0は線形相関がないことを示します。[ 11 ]
これは、推定や仮説検定によって未知の母集団について推論を行うために用いられる[ 16 ]。言い換えれば、対象となる母集団を記述するパラメータを得ることが望ましいが、データが限られているため、それらを推定するためには代表的な標本を利用する必要がある。これにより、事前に定義された仮説を検定し、その結論を母集団全体に適用することが可能になる。 平均の標準誤差は、推論を行う上で非常に重要な変動性の尺度である[ 6 ] 。
仮説検定は、「研究計画」のセクションで述べたように、研究課題への回答を目的として集団に関する推論を行う上で不可欠です。著者らは、設定すべき4つのステップを定義しました。[ 6 ]
信頼区間とは、一定の信頼水準において真の実パラメータ値を含む値の範囲です。最初のステップは、母数パラメータの最良かつ偏りのない推定値を推定することです。区間の上限値は、この推定値と平均の標準誤差と信頼水準の積を合計することで得られます。下限値の計算も同様ですが、合計ではなく減算を適用する必要があります。[ 6 ]
仮説を検定する場合、タイプ I の誤りとタイプ II の誤りという 2 種類の統計誤差が発生する可能性があります。
αで表される有意水準はタイプIの誤り率であり、検定を行う前に選択する必要があります。タイプIIの誤り率はβで表され、検定の統計的検出力は1 − βです。
p値とは、帰無仮説(H 0 )が真であると仮定した場合に、観測された結果と同等かそれ以上に極端な結果が得られる確率です。計算確率とも呼ばれます。p値は有意水準(α)と混同されがちですが、αは有意な結果と判断するための予め定義された閾値です。pがα未満の場合、帰無仮説(H 0)は棄却されます。[ 17 ]
同一仮説を複数回検定する場合、偽陽性 の発生確率(ファミリーワイズエラー率)が増加するため、この発生を考慮する戦略が必要となる。これは通常、帰無仮説を棄却するためのより厳格な閾値を用いることで達成される。ボンフェローニ補正は、α*で表される許容可能な全体的有意水準を定義し、各検定はα = α*/mの値と個別に比較される。これにより、m回の検定すべてにおけるファミリーワイズエラー率がα*以下になることが保証される。mが大きい場合、ボンフェローニ補正は過度に保守的になる可能性がある。ボンフェローニ補正の代替案として、偽発見率(FDR)を制御する方法がある。FDRは、棄却された帰無仮説(いわゆる発見)のうち、偽(誤った棄却)となる割合の期待値を制御する。この手順により、独立した検定において、偽発見率が最大でq*になることが保証される。したがって、FDRはボンフェローニ補正よりも保守的ではなく、検出力は高いが、偽陽性は増加する。[ 18 ]
検定される主要仮説(例えば、治療と結果の間に関連性がない)には、帰無仮説の一部でもある他の技術的仮定(例えば、結果の確率分布の形状に関する仮定)が伴うことが多い。技術的仮定が実際には破られる場合、主要仮説が正しいとしても帰無仮説はしばしば棄却される可能性がある。このような棄却は、モデルの誤った指定によると言われている。[ 19 ]統計的検定の結果が技術的仮定をわずかに変更しても変化しないかどうかを検証すること(いわゆるロバストネスチェック)は、誤った指定に対抗する主な方法である。
モデル基準の選択は、より真のモデルに近いモデルを選択またはモデル化します。赤池情報量基準(AIC)とベイズ情報量基準(BIC)は、漸近的に効率的な基準の例です。
近年の進歩は生物統計学に大きな影響を与えています。2つの重要な変化は、ハイスループットなデータ収集能力と、計算技術を用いてより複雑な分析を実行できる能力です。これは、シーケンシング技術、バイオインフォマティクス、機械学習(バイオインフォマティクスにおける機械学習)といった分野の発展によるものです。
マイクロアレイ、次世代シーケンサー(ゲノミクス用)、質量分析法(プロテオミクス用)といった新しい生物医学技術は膨大な量のデータを生成し、多くの検査を同時に実施することを可能にする。[ 20 ]シグナルとノイズを分離するには、生物統計学的手法を用いた慎重な分析が必要である。例えば、マイクロアレイを用いれば数千もの遺伝子を同時に測定し、疾患細胞と正常細胞で発現が異なる遺伝子を特定することができる。しかし、発現が異なるのはごく一部の遺伝子のみである。[ 21 ]
多重共線性は、ハイスループットの生物統計設定でよく発生します。予測変数間の相互相関が高いため (遺伝子発現レベルなど)、1 つの予測変数の情報が別の予測変数に含まれている可能性があります。つまり、応答の変動の 90% が予測変数の 5% によって説明される可能性があります。このような場合、次元削減 (主成分分析など) の生物統計手法を適用できます。線形回帰やロジスティック回帰、線形判別分析などの従来の統計手法は、高次元データ (つまり、観測値の数 n が特徴または予測変数の数 p より小さい場合: n < p) には適していません。実際、統計モデルの予測力が非常に低いにもかかわらず、かなり高い R 2値が得られることがあります。これらの従来の統計手法 (特に最小二乗線形回帰) は、低次元データ (つまり、観測値の数 n が予測変数の数 p よりはるかに大きい場合: n >> p) 用に開発されました。高次元の場合、トレーニング セットではなく、 独立した検証テスト セットと、それに対応する残差二乗和 (RSS) および R 2 を常に考慮する必要があります。
多くの場合、複数の予測因子からの情報をまとめてプールすることが有用です。例えば、遺伝子セットエンリッチメント解析(GSEA)は、個々の遺伝子ではなく、(機能的に関連する)遺伝子セット全体の摂動を考慮します。[ 22 ]これらの遺伝子セットは、既知の生化学的経路である場合もあれば、機能的に関連する遺伝子である場合もあります。このアプローチの利点は、より堅牢であることです。つまり、経路全体が誤って摂動されているよりも、単一の遺伝子が誤って摂動されている可能性が高いのです。さらに、このアプローチを用いることで、生化学的経路(JAK-STATシグナル伝達経路など)に関する蓄積された知識を統合することができます。
生物学データベースの開発により、世界中のユーザーが確実にアクセスできるように生物学データを保存および管理できるようになりました。これらは、研究者がデータを預けたり、他の実験から取得した情報やファイル(生または処理済み)を取得したり、PubMedなどの科学論文を索引付けしたりするのに役立ちます。もう 1 つの可能性は、目的の用語(遺伝子、タンパク質、疾患、生物など)を検索し、この検索に関連するすべての結果を確認することです。SNP 専用のデータベース( dbSNP )、遺伝子の特性とそのパスウェイに関する知識 ( KEGG )、細胞成分、分子機能、生物学的プロセス別に分類する遺伝子機能の説明 (遺伝子オントロジー) があります。[ 23 ]特定の分子情報を含むデータベースに加えて、生物または生物群に関する情報を保存するという意味で豊富なデータベースもあります。1 つの生物のみを対象としているが、その生物に関する多くのデータを含むデータベースの例として、Arabidopsis thaliana の遺伝子および分子データベースである TAIR があります。[ 24 ] Phytozome [ 25 ]は、数十種の植物ゲノムのアセンブリとアノテーションファイルを保存しており、視覚化ツールと解析ツールも備えています。さらに、情報交換・共有においては複数のデータベースが相互接続されており、主要な取り組みの一つとして国際ヌクレオチド配列データベース連携(INSDC)[ 26 ]が挙げられます。INSDCはDDBJ [ 27 ] 、 EMBL-EBI [ 28 ]、NCBI [ 29 ]のデータを関連付けています。
今日では、分子データセットの規模と複雑さの増大により、機械学習分野で開発されたコンピュータサイエンスアルゴリズムが提供する強力な統計手法が活用されるようになっています。そのため、データマイニングと機械学習では、教師あり学習、教師なし学習、回帰分析、クラスター検出、相関ルールマイニングなどの手法を用いて、生物学的データのような複雑な構造を持つデータ内のパターン検出が可能になります。[ 23 ]例えば、自己組織化マップやk平均法はクラスターアルゴリズムの例であり、ニューラルネットワーク実装やサポートベクターマシンモデルは一般的な機械学習アルゴリズムの例です。
実験を正しく実行するには、計画からデータ生成と分析を経て結果の生物学的解釈に至るまで、分子生物学者、バイオインフォマティクス学者、統計学者、コンピュータ科学者の共同作業が重要である。[ 23 ]
一方、現代のコンピュータ技術と比較的安価なコンピューティング リソースの出現により、ブートストラッピングや再サンプリング法などのコンピュータ集約型の生物統計手法が可能になりました。
近年、ランダムフォレストは統計的分類を行う手法として人気が高まっています。ランダムフォレストの手法は、決定木パネルを生成します。決定木の利点は、(数学や統計の基礎知識さえあれば)誰でも作成・解釈できることです。そのため、ランダムフォレストは臨床意思決定支援システムに利用されています。
公衆衛生学には、疫学、保健サービス研究、栄養学、環境衛生学、保健政策・管理学などが含まれます。これらの医学分野においては、臨床試験の設計と分析を考慮することが重要です。例えば、疾患の予後予測を伴う患者の重症度評価などが挙げられます。
新たな技術と遺伝学の知見により、生物統計学は、より個別化された医療であるシステム医療にも利用されるようになりました。そのために、従来の患者データ、臨床病理学的パラメータ、分子・遺伝学的データ、そして新たなオミクス技術によって生成されたデータなど、様々な情報源からのデータが統合されています。[ 30 ]
集団遺伝学と統計遺伝学を用いて、遺伝子型の変異と表現型の変異を結び付ける研究。言い換えれば、多遺伝子制御下にある測定可能な形質、すなわち量的形質の遺伝的基盤を発見することが望ましい。連続的な形質を担うゲノム領域は、量的形質遺伝子座(QTL)と呼ばれる。QTLの研究は、分子マーカーを用いて集団内の形質を測定することで可能になるが、そのマッピングには、F2や組み換え近交系/系統(RIL)のような実験的交配から集団を入手する必要がある。ゲノム内のQTL領域をスキャンするには、連鎖に基づく遺伝子地図を構築する必要がある。最もよく知られているQTLマッピングアルゴリズムには、区間マッピング、複合区間マッピング、多重区間マッピングなどがある。[ 31 ]
しかし、QTLマッピングの解像度は、試験される組換えの量によって低下し、これは大きな子孫を得ることが難しい種では問題となる。さらに、対立遺伝子多様性は対照的な親に由来する個体に限定されるため、自然集団を代表する個体パネルを用いた場合、対立遺伝子多様性の研究には限界がある。[ 32 ]このため、連鎖不平衡、すなわち形質と分子マーカー間の非ランダムな関連に基づいてQTLを同定するために、ゲノムワイド関連研究が提案された。これは、ハイスループットSNPジェノタイピングの開発によって促進された。[ 33 ]
動物や植物の育種では、育種を目的とした選択におけるマーカー、主に分子マーカーの使用が、マーカー支援選択の発展に役立ってきた。QTLマッピングは解像度によって制限されるが、GWASは、環境の影響も受ける影響の小さい希少変異体に対しては十分なパワーを持っていない。そのため、選択においてすべての分子マーカーを使用し、この選択における候補のパフォーマンスを予測できるようにするために、ゲノム選択(GS)の概念が生まれた。提案は、トレーニング集団の遺伝子型と表現型を判定し、テスト集団と呼ばれる、遺伝子型に属し表現型集団には属さない個体のゲノム推定育種価(GEBV)を取得できるモデルを開発することである。[ 34 ]この種の研究には、クロスバリデーションの概念で考える検証集団を含めることもできる。クロスバリデーションでは、この集団で測定された実際の表現型結果が、モデルの精度をチェックするために使用される予測に基づく表現型結果と比較される。
要約すると、量的遺伝学の応用に関するいくつかのポイントは次のとおりです。
RT-qPCRやマイクロアレイなど、 RNA-Seqデータからの遺伝子の差次的発現の研究では、条件の比較が必要である。目標は、異なる条件間で存在量が大幅に変化する遺伝子を特定することである。次に、各条件/処理の複製、必要に応じてランダム化およびブロッキングを含む実験が適切に設計される。RNA-Seqでは、遺伝子配列の一部であるエクソンなど、いくつかの遺伝子単位にまとめられたマッピングされたリードの情報を用いて発現を定量化する。マイクロアレイの結果は正規分布で近似できるため、RNA-Seqのカウントデータは他の分布によってより適切に説明される。最初に使用された分布はポアソン分布であったが、これはサンプル誤差を過小評価し、偽陽性につながった。現在、生物学的変動は、負の二項分布の分散パラメータを推定する方法によって考慮されている。統計的有意性の検定には一般化線形モデルが使用され、遺伝子の数が多いため、多重検定補正を考慮する必要がある。[ 35 ]ゲノミクスデータの他の解析例としては、マイクロアレイやプロテオミクス実験が挙げられる。[ 36 ] [ 37 ]多くの場合、疾患や疾患の段階に関するものである。[ 38 ]
生物学データの統計解析に使用できるツールは数多くあります。そのほとんどは他の知識分野でも有用であり、幅広い応用範囲をカバーしています(アルファベット順)。以下に、いくつかを簡単に説明します。
生物統計学の教育プログラムはほぼすべて大学院レベルです。多くの場合、公衆衛生学部、医学部、林学部、農学部の付属学部、あるいは統計学科の応用分野として提供されています。
米国には複数の大学に生物統計学科が設置されていますが、他の一流大学では、生物統計学の教員を統計学や疫学などの他の学科に統合しているところも多くあります。そのため、「生物統計学」という名称を冠する学科であっても、実際には全く異なる構造で存在する場合があります。例えば、比較的新しい生物統計学の学科は、バイオインフォマティクスと計算生物学に重点を置いて設立されましたが、公衆衛生学部に所属する古い学科は、疫学研究や臨床試験、バイオインフォマティクスといった、より伝統的な研究分野を扱っています。統計学と生物統計学の両方の学科が存在する世界中の大規模大学では、両学科の統合度合いは、最低限の連携から非常に緊密な連携まで様々です。一般的に、統計プログラムと生物統計プログラムの違いは 2 つあります。(i) 統計部門では、生物統計プログラムではあまり一般的ではない理論的/方法論的研究が行われることが多く、(ii) 統計部門の研究分野には、生物医学的応用だけでなく、産業 (品質管理)、ビジネス、経済、医学以外の生物学分野など、他の分野も含まれます。
{{cite book}}:|journal=無視されました (ヘルプ)