データ分析

データ分析とは、有用な情報の発見、結論の通知、意思決定のサポートを目的として、データを検査、クレンジング変換モデル化する プロセスです。[ 1 ]データ分析にはさまざまな側面とアプローチがあり、さまざまな名前で呼ばれる多様な手法を包含し、さまざまなビジネス、科学、社会科学の分野で使用されています。[ 2 ]今日のビジネスの世界では、データ分析は意思決定をより科学的にし、ビジネスをより効果的に運営する上で役割を果たしています。[ 3 ]

データマイニングは、純粋に記述的な目的ではなく予測のための統計的モデリングと知識発見に重点を置いた特定のデータ分析手法です。一方、ビジネスインテリジェンスは、主にビジネス情報に重点を置いた、集約に大きく依存するデータ分析をカバーします。統計アプリケーションでは、データ分析は記述統計探索的データ分析(EDA)、確認的データ分析(CDA) に分けられます。[ 4 ] EDA はデータ内の新しい特徴の発見に重点を置いているのに対し、CDA は既存の仮説の確認または反証に重点を置いています。[ 5 ]予測分析は、予測や分類のための統計モデルの適用に重点を置いています。一方、テキスト分析は、統計的、言語的、構造的手法を適用して、テキストソースやさまざまな非構造化データから情報を抽出して分類します。上記はすべてデータ分析のさまざまな種類です。[ 6 ]

データ分析プロセス

Schutt & O'Neil (2013) 著『Doing Data Science』からのデータサイエンス プロセス フローチャート

データ分析とは、生データを取得し、それをユーザーの意思決定に役立つ情報に変換するプロセスです。 [ 1 ]統計学者ジョン・テューキーは1961年にデータ分析を次のように定義しました。

「データを分析するための手順、そのような手順の結果を解釈するための技術、分析をより容易に、より正確に、より正確にするためのデータ収集を計画する方法、およびデータ分析に適用される(数学的)統計のすべての機械と結果。」[ 7 ]

いくつかのフェーズがあり、それらは反復的であり、後のフェーズからのフィードバックによって前のフェーズでの追加作業が必要になる場合があります。[ 8 ]

データ要件

データは分析の入力として必要であり、分析を指示する者(または分析の最終成果物を使用する顧客)の要件に基づいて指定されます。[ 9 ]データ収集の対象となる実体の一般的な種類は、実験単位(例:個人または集団)と呼ばれます。集団に関する特定の変数(例:年齢や収入)を指定して取得することもできます。データは数値またはカテゴリ(つまり、数値のテキストラベル)のいずれかです。[ 8 ]

データ収集

データは様々な情報源から収集されます。[ 10 ]調査研究のためにデータソースのリストが用意されています。アナリストは、組織内の情報技術担当者など、データの管理者に要件を伝えることができます。 [ 11 ]データ収集またはデータ収集とは、確立されたシステム内の対象変数に関する情報を収集・測定するプロセスであり、これにより関連する質問に答え、結果を評価することができます。データは、交通カメラ、衛星、記録装置などの環境内のセンサーから収集される場合もあります。また、インタビュー、オンラインソースからのダウンロード、または文書を読むことでも取得できます。[ 8 ]

データ処理

生の情報から実用的なインテリジェンスや知識に変換するために使用されるインテリジェンス サイクルのフェーズは、データ分析のフェーズと概念的に似ています。

データ統合はデータ分析の前段階です。データは、最初に取得された後、分析のために処理または整理する必要があります。例えば、スプレッドシート(​​Excel)や統計ソフトウェアを用いて、データを行と列に整理し、表形式(構造化データと呼ばれる )で整理することが挙げられます。[ 8 ]

データクリーニング

処理・整理されたデータは、不完全であったり、重複していたり​​、エラーが含まれていたりする可能性があります。[ 12 ]データクリーニングの必要性は、データの入力方法や保存方法に問題がある場合などに生じます。[ 12 ] [ 13 ]データクリーニングとは、これらのエラーを防止・修正するプロセスです。一般的なタスクには、レコードのマッチング、データの不正確さの特定、既存データの全体的な品質、重複除去、列のセグメンテーションなどがあります。[ 14 ] [ 15 ]

このようなデータの問題は、さまざまな分析手法を通じて特定することもできます。たとえば、財務情報では、特定の変数の合計を、信頼できると考えられる別途公開された数値と比較する場合があります。[ 16 ]事前に設定されたしきい値を上回るまたは下回る異常な金額も確認されることがあります。セット内のデータのタイプによって、いくつかの種類のデータクリーニングがあります。これには、電話番号、電子メールアドレス、雇用主、またはその他の値が含まれます。[ 17 ]外れ値検出のための定量的データ手法を使用すると、誤って入力される可能性が高いと思われるデータを除外できます。テキストデータのスペルチェッカーを使用すると、入力ミスの量を減らすことができます。ただし、単語が文脈的に(つまり、意味的および慣用的に)正しいかどうかを判断することは困難です。

探索的データ分析

データセットがクリーニングされると、探索的データ分析を用いて分析を開始できます。データ探索のプロセスでは、追加のデータクリーニングや追加のデータ要求が発生する場合があります。これは、前述の反復フェーズの初期化に該当します。 [ 18 ] 平均、中央値、標準偏差などの記述統計は、データを大まかに特徴付けるためによく使用されます。 [ 19 ] [ 20 ]データの視覚化も使用され、アナリストはデータをグラフィカル形式で調べることで、データ内のメッセージに関する追加の洞察を得ることができます。[ 8 ]

モデリングとアルゴリズム

数式モデル(アルゴリズムとも呼ばれる)をデータに適用することで、変数間の関係性を特定することができます。例えば、相関関係の有無を確認したり、因果関係の有無を判断したりすることができます。一般的に、モデルはデータセットに含まれる他の変数に基づいて特定の変数を評価するために開発されますが、実装されたモデルの精度に応じて、ある程度の残差誤差が生じます(:データ = モデル + 誤差)。[ 21 ]

推論統計は、特定の変数間の関係性を測定する手法を利用する。[ 22 ]例えば、回帰分析は、広告(独立変数X )の変化が売上高(従属変数Y )の変動を説明できるかどうかをモデル化するために使用できる。つまり、YはXの関数であるかどうかである。これは( Y = aX + b + 誤差)と記述でき、モデルは、 Xの特定の範囲の値に対してモデルがYを予測するときに、(a)と(b)が誤差を最小化するように設計されています。[ 23 ]

データ製品

データ製品とは、データ入力を受け取り、出力を生成し、それを環境にフィードバックするコンピュータアプリケーションです。 [ 24 ]モデルやアルゴリズムに基づいている場合もあります。例えば、顧客の購入履歴に関するデータを分析し、その結果に基づいて顧客が気に入る可能性のある他の購入商品を推奨するアプリケーションなどが挙げられます。[ 25 ] [ 8 ]

コミュニケーション

データの視覚化は、データを分析した後に結果を理解するのに役立ちます。[ 26 ]

データが分析されると、分析のユーザーの要件をサポートするために、さまざまな形式でデータが報告されることがあります。[ 27 ]ユーザーからのフィードバックにより、追加の分析が行われることがあります。

結果をどのように伝えるかを決定する際に、アナリストは、メッセージをより明確かつ効率的に聴衆に伝えるために、様々なデータ視覚化手法の導入を検討する場合があります。データ視覚化では、情報表示(表やグラフなどのグラフィック)を用いて、データに含まれる重要なメッセージを伝えます。表は、ユーザーが特定の数値を検索して焦点を絞ることができるため、貴重なツールとなります。一方、グラフ(棒グラフや折れ線グラフなど)は、データに含まれる定量的なメッセージを説明するのに役立ちます。[ 28 ]

定量的なメッセージ

米国の連邦政府の支出と収入の推移を示す折れ線グラフで表された時系列
ある時点で測定された2つの変数(インフレと失業率)の相関関係を示す散布図

スティーブン・フューは、関連するグラフを含むデータセットからユーザーが伝えようとする可能性のある8種類の定量的なメッセージについて説明しました。[ 29 ] [ 30 ]

  1. 時系列:10年間の失業率など、ある期間にわたって単一の変数の推移を捉えます。折れ線グラフは、その傾向を示すために使用できます。
  2. ランキング:カテゴリ区分は昇順または降順にランク付けされます。例えば、ある期間における営業担当者(カテゴリ、各営業担当者はカテゴリ区分)による営業実績(指標)のランキングなどです。棒グラフを用いて、営業担当者間の比較を示すことができます。[ 31 ]
  3. 部分対全体:カテゴリ区分は、全体に対する比率(つまり、100%に対するパーセンテージ)として測定されます。円グラフや棒グラフは、市場における競合他社の市場シェアなど、比率の比較を示すことができます。[ 32 ]
  4. 偏差:カテゴリ区分は、例えば、ある期間における企業の複数の部門の実際の支出と予算支出の比較など、基準と比較されます。棒グラフは、実際の金額と基準金額の比較を示すことができます。[ 33 ]
  5. 頻度分布: 株式市場の収益率が 0~10%、11~20% などの間隔内にある年数など、特定の変数の特定の間隔での観測数を表示します。この分析には、棒グラフの一種であるヒストグラムを使用できます。
  6. 相関:2つの変数(X,Y)で表される観測値を比較し、それらが同じ方向に動く傾向があるか、それとも反対方向に動く傾向があるかを判断すること。例えば、ある月における失業率(X)とインフレ率(Y)をプロットするなど。このメッセージには、散布図が一般的に用いられる。[ 34 ]
  7. 名目比較:製品コード別の売上高など、特定の順序なしにカテゴリ区分を比較すること。この比較には棒グラフが使用される場合がある。[ 35 ]
  8. 地理学的または地理空間的:地図やレイアウト上で変数を比較すること。例えば、州別の失業率や建物の各階の人数など。通常はカルトグラムが用いられる。[ 29 ]

金融における定量データの分析

ジョナサン・クーミーは、定量データを理解するための一連のベストプラクティスを推奨しています。これには以下が含まれます。[ 16 ]

  • 分析を実行する前に生データに異常がないか確認します。
  • 数式に基づくデータ列の検証など、重要な計算を再実行します。
  • 主な合計が小計の合計であることを確認します。
  • 時間の経過に伴う比率など、予測可能な方法で関連付けられるはずの数値間の関係を確認します。
  • 一人当たりの金額や GDP に対する相対的な金額、基準年に対する相対的な指数値などの比較を容易にするために数値を正規化します。
  • デュポンの自己資本利益率分析など、結果につながった要因を分析して、問題を構成要素に分解します。

分析者は、調査対象となる変数について、通常、平均値、中央値標準偏差などの記述統計量を取得します。また、主要変数の分布を分析することで、個々の値が平均値の周囲にどのように集まっているかを確認することもあります。 [ 16 ]

データ分析に使用されるMECE原則の図解

マッキンゼー・アンド・カンパニーは、定量的な問題を構成要素に分解する手法をMECE原則と名付けました。MECEとは「Mutually Exclusive and Collectively Exhaustive(相互に排他的かつ集合的に網羅的)」の略です。[ 36 ]各層はさらに構成要素に分解できますが、各サブ構成要素は互いに排他的、かつ上位層と合致する必要があります。例えば、利益は定義上、総収益と総費用に分解できます。[ 37 ]

分析者は、特定の分析問題を解決するために、堅牢な統計的測定法を用いることがあります。 仮説検定は、分析者が真の状況に関する特定の仮説を立て、その仮説が真か偽かを判断するためにデータを収集する際に用いられます。[ 38 ]例えば、「失業はインフレに影響を与えない」という仮説は、フィリップス曲線と呼ばれる経済学の概念に関連しています。[ 39 ]仮説検定では、データが仮説の受け入れを支持するか拒否するかに関連するタイプIエラーとタイプIIエラーの確率を考慮します。[ 40 ]

回帰分析は、独立変数Xが従属変数Yにどの程度影響を与えるか(例えば、「失業率(X)の変化はインフレ率(Y)にどの程度影響を与えるか?」)を判断する際に使用されることがある。[ 41 ]

必要条件分析(NCA)は、独立変数Xが変数Yをどの程度許容するかを分析者が判断しようとするときに用いられる(例えば、「ある失業率(X)は、あるインフレ率(Y)にとってどの程度必要か?」)。[ 41 ](重回帰)分析では、各X変数が結果を生み出し、X変数が互いに補い合う(十分条件だが必要条件ではない)という加法的論理を用いるのに対し、[ 42 ]必要条件分析(NCA)では、1つ以上のX変数が結果の存在を可能にするが、必ずしも結果を生み出すとは限らない(必要条件だが十分条件ではない)という必然性論理を用いる。必要な条件はそれぞれ必ず存在しなければならず、補い合うことはできない。[ 43 ]

データ利用者の分析活動

データ可視化ユーザーの分析活動

ユーザーは、上記で概説した一般的なメッセージングとは対照的に、データセット内の特定のデータポイントに関心を持つ場合があります。このような低レベルのユーザー分析アクティビティは、以下の表に示されています。この分類は、値の取得、データポイントの発見、データポイントの配置という3つのアクティビティの極によって整理することもできます。[ 44 ] [ 45 ] [ 46 ]

#タスク概要​プロフォーマ概要
1 値を取得一連の特定のケースが与えられた場合、それらのケースの属性を見つけます。 データケース {A、B、C、...} の属性 {X、Y、Z、...} の値は何ですか? - フォード モンデオの 1 ガロンあたりの燃費はどのくらいですか?

- 映画『風と共に去りぬ』はどのくらいの長さですか?

2 フィルター属性値に関するいくつかの具体的な条件が与えられた場合、それらの条件を満たすデータケースを見つけます。 どのデータケースが条件 {A、B、C...} を満たしますか? - ケロッグのどのシリアルが食物繊維を多く含んでいますか?

- どのコメディが賞を受賞しましたか?

- SP-500 を下回ったファンドはどれですか?

3 派生値を計算するデータ ケースのセットが与えられた場合、それらのデータ ケースの集計数値表現を計算します。 与えられたデータケースのセット S に対する集計関数 F の値は何ですか? - ポストシリアルの平均カロリー量はどれくらいですか?

- 全店舗を合わせた総収入はいくらですか?

- 自動車メーカーは何社あるのでしょうか?

4 極値を見つけるデータ セット内の範囲にわたって属性の極端な値を持つデータ ケースを検索します。 属性 A に関する上位/下位 N のデータ ケースは何ですか。 - 燃費が​​最も良い車は何ですか?

- 最も多くの賞を受賞した監督/映画はどれですか?

- マーベル・スタジオの映画の中で最も最近公開されたものは何ですか?

5 選別一連のデータ ケースが与えられた場合、それらを何らかの順序メトリックに従ってランク付けします。 属性 A の値に従ってデータ ケースのセット S をソートした順序は何ですか。 - 車を重量順に並べます。

- シリアルをカロリー順にランク付けします。

6 範囲を決定するデータ ケースのセットと関心のある属性が与えられた場合、セット内の値の範囲を見つけます。 データ ケースのセット S 内の属性 A の値の範囲は何ですか。 - フィルムの長さの範囲はどのくらいですか?

- 車の馬力の範囲はどのくらいですか?

- データセットにはどんな女優が含まれていますか?

7 分布の特徴づけデータ ケースのセットと対象となる定量的属性が与えられた場合、そのセット全体におけるその属性の値の分布を特徴付けます。 データケースのセット S における属性 A の値の分布は何ですか? - 穀物中の炭水化物の分布はどうなっていますか?

- 買い物客の年齢構成はどうですか?

8 異常を見つける特定の関係性や期待値に関して、特定のデータ ケース セット内の異常 (統計的な外れ値など) を特定します。 データ ケースのセット S 内のどのデータ ケースに予期しない値または例外的な値がありますか。 - 馬力と加速度の関係に例外はありますか?

- タンパク質に異常値はありますか?

9 クラスタ一連のデータ ケースが与えられた場合、類似した属性値のクラスターを見つけます。 データ ケースのセット S 内のどのデータ ケースが属性 {X、Y、Z、...} の値が類似していますか? - 同様の脂肪/カロリー/糖分を含むシリアルのグループはありますか?

- 典型的な映画の長さの集まりはありますか?

10 相関関係一連のデータ ケースと 2 つの属性が与えられた場合、それらの属性の値間の有用な関係を決定します。 特定のデータ ケース セット S における属性 X と Y の相関関係は何ですか。 - 炭水化物と脂肪には相関関係がありますか?

- 原産国とMPGの間に相関関係はありますか?

- 性別によって好みの支払い方法はありますか?

- 映画の長さは年々長くなる傾向にありますか?

11 文脈化一連のデータ ケースが与えられた場合、ユーザーに対するデータのコンテキスト関連性を見つけます。 データ ケースのセット S 内のどのデータ ケースが現在のユーザーのコンテキストに関連していますか? - 現在の摂取カロリーに基づいた料理を提供するレストラングループはありますか?

効果的な分析の障壁

効果的な分析を阻む障壁は、データ分析を行う分析者自身や、分析対象者自身に存在する可能性があります。事実と意見の区別、認知バイアス、そして数学的能力の欠如は、いずれも健全なデータ分析にとっての課題です。[ 47 ]

事実と意見の混同

あなたにはあなた自身の意見を持つ権利はありますが、あなた自身の事実を持つ権利はありません。

効果的な分析には、疑問に答え、結論や正式な意見を裏付け、仮説を検証するために、関連する事実を入手する必要がある。[ 48 ]事実は定義上反駁不可能であり、分析に関わるすべての人がそれについて合意できるものでなければならない。公開会社の監査人は、公開会社の財務諸表が「すべての重要な点において公正に表示されている」かどうかについて正式な意見を示さなければならない。[ 49 ]これには、意見を裏付ける事実データと証拠の広範な分析が必要である。

認知バイアス

分析に悪影響を及ぼす認知バイアスは多岐にわたります。例えば、確証バイアスとは、自分の先入観を裏付けるような情報を探したり解釈したりする傾向のことです。[ 50 ]さらに、人は自分の見解を裏付けない情報を信用しないこともあります。[ 51 ]

分析官は、これらのバイアスを認識し、それを克服する方法を具体的に訓練されることがある。[ 52 ]元CIA分析官リチャーズ・ホイヤーは著書『インテリジェンス分析の心理学』の中で、分析官は自分の仮定と推論の連鎖を明確に描写し、結論に含まれる不確実性の程度と原因を特定する必要があると書いている。[ 53 ]彼は、別の視点を浮かび上がらせ、議論するのに役立つ手順を強調した。[ 54 ]

算数ができない

効果的な分析者は、一般的に様々な数値手法に精通しています。しかし、聴衆は数字や計算能力に関するそのようなリテラシーを持っていない可能性があり、彼らは数学非力だと言われています。[ 55 ]また、データを伝える人が、意図的に不適切な数値手法を用いて、誤解を招いたり、誤った情報を与えようとしたりする可能性もあります。[ 56 ]

例えば、ある数値が増加しているか減少しているかは、必ずしも重要な要素ではないかもしれません。より重要なのは、ある数値が他の数値と相対的にどうなっているか、例えば政府の歳入や歳出が経済規模(GDP)に対してどうなっているか、あるいは企業の財務諸表における収益に対する費用の額がどうなっているかといったことです。[ 57 ]この数値化手法は、正規化[ 16 ]または共通サイジングと呼ばれます。アナリストは、インフレ調整(すなわち、実質データと名目データの比較)や人口増加、人口動態などを考慮するなど、このような手法を数多く用いています。[ 58 ]

アナリストは、異なる仮定やシナリオに基づいてデータを分析することもあります。例えば、アナリストが財務諸表分析を行う際には、将来のキャッシュフローを推定するために、異なる仮定に基づいて財務諸表を再構成することがよくあります。そして、そのキャッシュフローをある金利に基づいて現在価値に割り引くことで、企業やその株式の評価額を決定します。[ 59 ]同様に、CBOは、様々な政策オプションが政府の歳入、支出、赤字に及ぼす影響を分析し、主要な指標について代替的な将来シナリオを作成します。[ 60 ]

その他のアプリケーション

分析とビジネスインテリジェンス

アナリティクスとは、「データ、統計的・定量的分析、説明的・予測的モデル、そして事実に基づく経営を広範に活用し、意思決定と行動を促進すること」です。これはビジネスインテリジェンスの一部であり、ビジネスインテリジェンスは、データを用いてビジネスパフォーマンスを理解・分析し、意思決定を促進するための一連の技術とプロセスです。[ 61 ]

教育

教育分野では、ほとんどの教育者が生徒のデータを分析するためにデータシステムにアクセスできる。 [ 62 ]これらのデータシステムは、教育者のデータ分析の精度を向上させるために、市販のデータ形式(ラベル、補足資料、ヘルプシステムを埋め込み、主要なパッケージ/表示とコンテンツの決定を行う)で教育者にデータを提示する。[ 63 ]

実務家のメモ

このセクションには、実務家にとっては役立つかもしれないが、Wikipediaの記事の典型的な範囲を超える、かなり技術的な説明が含まれています。[ 64 ]

初期データ分析

初期データ分析段階と主要分析段階の最も重要な違いは、初期データ分析段階では、当初の研究課題に答えることを目的とした分析は行わないという点である。初期データ分析段階は、以下の4つの問いに基づいて進められる。[ 65 ]

データの品質

データの品質は可能な限り早期に確認する必要があります。データの品質は、頻度カウント、記述統計(平均値、標準偏差、中央値)、正規性(歪度、尖度、頻度ヒストグラム)といった様々な分析を用いて評価できます。正規分布の補完も必要です。[ 66 ]

  • 極端な観測値の分析:データ内の外れ値の観測値が分布を乱すかどうかを分析します。[ 67 ]
  • コーディングスキームの比較と差異の修正:変数はデータセット外部の変数のコーディングスキームと比較され、コーディングスキームが比較できない場合は修正される可能性があります。[ 68 ]
  • 共通手法の分散検定。初期データ分析段階でデータ品質を評価するための分析の選択は、主分析段階で実施される分析に依存する。[ 69 ]

測定の品質

測定機器の品質は、それが研究の焦点または研究課題ではない場合にのみ、初期のデータ分析段階で確認されるべきである。[ 70 ]測定機器の構造が文献で報告されている構造と一致しているかどうかを確認する必要がある。

測定品質を評価する方法は 2 つあります。

  • 確認因子分析
  • 均質性(内部一貫性)の分析は、測定機器の信頼性の指標となる。 [ 71 ]この分析では、項目と尺度の分散、尺度のクロンバックのα、そして尺度から項目を削除した場合のクロンバックのαの変化を調べる。[ 72 ]

初期の変換

データと測定値の品質を評価した後、欠損データを補完するか、1つまたは複数の変数の初期変換を実行することを決定する場合がありますが、これは主な分析フェーズで行うこともできます。[ 73 ] 変数の可能な変換は次のとおりです。[ 74 ]

  • 平方根変換(分布が正規分布から中程度に異なる場合)
  • 対数変換(分布が正規分布と大きく異なる場合)
  • 逆変換(分布が正規分布と大きく異なる場合)
  • カテゴリ(順序/二分)にする(分布が正規分布と大きく異なり、変換が役に立たない場合)

研究の実施は研究設計の意図を達成しましたか?

ランダム化手順の成功を確認する必要がある。例えば、背景変数と実質変数がグループ内およびグループ間で均等に分布しているかどうかを確認する。研究においてランダム化手順が必要でなかった、あるいはランダム化手順が用いられていなかった場合は、非ランダムサンプリングの成功を確認する必要がある。例えば、対象集団のすべてのサブグループがサンプルに反映されているかどうかを確認する。[ 75 ]他に確認すべきデータの歪みとしては、以下のものがある。

  • ドロップアウト(これは初期のデータ分析段階で特定する必要があります)
  • 項目の無回答(ランダムかどうかは、初期のデータ分析段階で評価する必要があります)
  • 治療の質(操作チェックを使用)[ 76 ]

データサンプルの特性

いかなる報告書や論文においても、サンプルの構造は正確に記述されなければならない。特に、主分析フェーズでサブグループ分析を行う場合は、サブグループのサイズを正確に決定することが重要である。[ 77 ]データサンプルの特性は、以下の点に注目することで評価できる。

  • 重要な変数の基本統計
  • 散布図
  • 相関関係と関連性
  • クロス集計[ 78 ]

初期データ分析の最終段階

最終段階では、初期データ分析の結果を文書化し、必要かつ望ましい、そして可能な是正措置を講じます。また、主要なデータ分析に関する当初の計画をより詳細に規定したり、書き直したりすることも検討すべきです。そのためには、主要なデータ分析に関していくつかの決定を行う必要があり、また行うべきです。

  • 非正規分布の場合、変数を変換する必要がありますか? 変数をカテゴリ化 (順序/二値) しますか? 分析方法を調整しますか?
  • 欠損データがある場合、欠損データを無視するか補完するか、またどの補完手法を使用すべきか?
  • 外れ値の場合、堅牢な分析手法を使用する必要がありますか?
  • 項目がスケールに適合しない場合は、項目を省略して測定機器を適応させるべきでしょうか、それとも他の測定機器(の使用)との比較可能性を確保すべきでしょうか?
  • サブグループが(小さすぎる)場合、グループ間の差異に関する仮説を放棄すべきでしょうか、それとも正確なテストやブートストラッピングなどの小規模サンプル手法を使用するべきでしょうか?
  • ランダム化の手順に欠陥があると思われる場合、傾向スコアを計算し、それを主分析の共変量として含めることは可能でしょうか、また含めるべきでしょうか?[ 79 ]

分析

初期データ分析段階ではいくつかの分析法が利用できる。[ 80 ]

  • 単変量統計(単一変数)
  • 二変量関連(相関)
  • グラフィカルな手法(散布図)

分析においては、変数の測定レベルを考慮することが重要であり、それぞれのレベルには特別な統計手法が利用可能である。[ 81 ]

  • 名義変数と順序変数
    • 頻度カウント(数値とパーセンテージ)
    • 協会
      • 巡回(クロス集計)
      • 階層的対数線型分析(最大8変数に制限)
      • 対数線形分析(関連/重要な変数と可能性のある交絡因子を特定するため)
    • 正確検定またはブートストラップ(サブグループが小さい場合)
    • 新しい変数の計算
  • 連続変数
    • 分布
      • 統計(M、SD、分散、歪度、尖度)
      • 茎葉ディスプレイ
      • 箱ひげ図

非線形解析

非線形システムからデータを記録する際には、非線形解析が必要となることがよくあります。非線形システムは、分岐カオス高調波分数調波など、単純な線形手法では解析できない複雑な動的効果を示すことがあります。非線形データ解析は、非線形システム同定と密接に関連しています。[ 82 ]

主なデータ分析

主分析段階では、研究の問いに答えることを目的とした分析と、研究報告書の初稿を書くために必要なその他の関連分析が行われます。[ 83 ]

探索的アプローチと検証的アプローチ

主分析段階では、探索的アプローチと検証的アプローチのいずれかを採用できます。通常、どちらのアプローチを採用するかはデータ収集前に決定されます。[ 84 ]探索的分析では、データ分析前に明確な仮説は提示されず、データを適切に記述するモデルが探索されます。[ 85 ]検証的分析では、データに関する明確な仮説が検証されます。[ 86 ]

探索的データ分析は注意深く解釈する必要がある。複数のモデルを同時にテストする場合、少なくとも1つのモデルが有意であると判明する可能性が高いが、これはタイプ1の誤りによるものである可能性がある。複数のモデルをテストする際には、例えばボンフェローニ補正などを用いて有意水準を常に調整することが重要である。[ 87 ]また、同じデータセットで探索的分析の後に確認的分析を行うべきではない。[ 88 ]探索的分析は理論のアイデアを見つけるために用いられるものであり、その理論を検証するために用いられるものではない。[ 88 ]あるデータセットでモデルが探索的であると判明した場合、その後に同じデータセットで確認的分析を行うことは、確認的分析の結果が、そもそも探索的モデルを導出したのと同じタイプ1の誤りによるものであることを意味するだけかもしれない。 [ 88 ]したがって、確認的分析は元の探索的分析よりも有益にはならないだろう。[ 89 ]

結果の安定性

結果がどの程度一般化できるかについて何らかの指標を得ることが重要です。[ 90 ]これを確認するのはしばしば困難ですが、結果の安定性を確認することは可能です。結果は信頼性が高く、再現性があるでしょうか?それを確認するには主に2つの方法があります。

  • クロスバリデーション。データを複数の部分に分割することで、ある部分データに基づく分析(例えば、適合モデル)が他の部分データにも一般化できるかどうかを確認できます。 [ 91 ]ただし、パネルデータなど、データ内に相関関係がある場合は、クロスバリデーションは一般的に不適切です。 [ 92 ]そのため、他の検証方法を使用する必要がある場合があります。このトピックの詳細については、統計モデル検証を参照してください。 [ 93 ]
  • 感度分析。システムまたはモデルの全体パラメータを(体系的に)変化させた場合の挙動を研究する手順。その方法の一つとしてブートストラッピングが挙げられる。 [ 94 ]

データ分析用の無料ソフトウェア

データ分析用の無料ソフトウェアには以下のものがあります。

  • DevInfo –国連開発グループが人間開発の監視と分析のために推奨するデータベースシステム。[ 95 ]
  • ELKI – データ マイニング指向の視覚化機能を備えた Java のデータ マイニング フレームワーク。
  • KNIME – Konstanz Information Miner、ユーザーフレンドリーで包括的なデータ分析フレームワーク。
  • Orange –インタラクティブなデータ視覚化と統計データ分析、データマイニング機械学習の手法を備えたビジュアルプログラミングツール。
  • Pandas – データ分析用の Python ライブラリ。
  • PAW – CERNで開発された FORTRAN/C データ分析フレームワーク。
  • R – 統計計算とグラフィックスのためのプログラミング言語とソフトウェア環境。[ 96 ]
  • ROOT – CERNで開発された C++ データ分析フレームワーク。
  • SciPy – 科学計算用の Python ライブラリ。
  • Julia – 数値解析と計算科学に適したプログラミング言語。

再現性のある分析

典型的なデータ分析ワークフローは、データの収集、分析の実行、可視化の作成、そしてレポートの作成で構成されます。しかし、このワークフローには、分析スクリプトとデータの分離、分析とレポート作成のギャップといった課題が伴います。多くの場合、スクリプトの実行順序は非公式にしか記述されていなかったり、データサイエンティストの記憶の中にしか残っていなかったりします。こうした情報が失われる可能性は、再現性に問題をもたらします。

これらの課題に対処するには、分析スクリプトの内容とワークフローを文書化することが不可欠です。さらに、全体的な文書化が不可欠であり、機械と人間の両方が理解できるレポートを提供すること、そしてスクリプトが進化しても分析ワークフローを正確に表現できることが求められます。[ 97 ]

データ分析コンテスト

様々な企業や組織が、研究者によるデータの活用や、データ分析を用いた特定の課題の解決を促すために、データ分析コンテストを開催しています。よく知られている国際的なデータ分析コンテストの例としては、以下のようなものがあります。

参照

参考文献

引用

  1. ^ a b「非構造化データを有用な情報に変換する」ビッグデータ、マイニング、アナリティクス、Auerbach Publications、pp.  227– 246、2014年3月12日、doi : 10.1201/b16666-14ISBN 978-0-429-09529-0、 2021年5月29日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  2. ^ 「相関関数の多様な側面」物理学者のためのデータ分析技術、ケンブリッジ大学出版局、pp.  526– 576、2017年、doi : 10.1017/9781108241922.013ISBN 978-1-108-41678-8、 2021年5月29日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  3. ^ Xia, BS, & Gong, P. (2015). データ分析によるビジネスインテリジェンスのレビュー.ベンチマーキング, 21 (2), 300-311. doi : 10.1108/BIJ-08-2012-0050
  4. ^ 「データコーディングと探索的データ分析(EDA)データコーディングのルール探索的データ分析(EDA)統計的仮定」SPSS for Intermediate Statistics、Routledge、pp.  42– 67、2004-08-16、doi10.4324 / 9781410611420-6ISBN 978-1-4106-1142-0、 2021年5月29日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  5. ^サマンダール、ピーターソン;ソフィア・スヴァンテッソン (2017)。Skapandet av förtroende inom eWOM: En Study av profilbildens effekt ur ett könsperspektiv . Högskolan i Gävle、Företagsekonomi。OCLC 1233454128 
  6. ^ Goodnight, James (2011-01-13). 「予測分析の将来予測:注目度は高く、さらに高まっている」 .統計分析とデータマイニング:ASAデータサイエンスジャーナル. 4 (1): 9– 10. doi : 10.1002/sam.10106 . ISSN 1932-1864 . S2CID 38571193 .  
  7. ^ Tukey, John W. (1962年3月). 「John Tukey-The Future of Data Analysis-July 1961」 . The Annals of Mathematical Statistics . 33 (1): 1– 67. doi : 10.1214/aoms/1177704711 . 2020年1月26日時点のオリジナルよりアーカイブ。 2015年1月1日閲覧
  8. ^ a b c d e fレイチェル・シュット、キャシー・オニール(2013). 『データサイエンスの実践オライリーメディア. ISBN 978-1-449-35865-5
  9. ^ 「データの使用」石油製品分析ハンドブック、ホーボーケン、ニュージャージー州:ジョン・ワイリー・アンド・サンズ社、pp.  296– 303、2015年2月6日、doi10.1002/9781118986370.ch18ISBN 978-1-118-98637-0、 2021年5月29日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  10. ^オルソラ、ジョンソン・アデジ;ショーテ、アデボラ・アデクンル。ウィグマヌ、アブデラ。イサイファン、リマ・J(2021年5月7日)。「表 1: この調査のために収集されたデータの種類とソース」ピアJ9 : e11387。土井: 10.7717/peerj.11387/table-1
  11. ^ MacPherson, Derek (2019-10-16)、「情報技術アナリストの視点」大学におけるデータ戦略、Routledge、pp.  168– 183、doi : 10.4324/9780429437564-12ISBN 978-0-429-43756-4, S2CID  211738958 , 2021年5月29日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  12. ^ a b Bohannon, John (2016年2月24日). 「多くの調査、約5件に1件は不正なデータを含んでいる可能性がある」 . Science . doi : 10.1126/science.aaf4104 . ISSN 0036-8075 . 
  13. ^ Hancock, RGV; Carter, Tristan (2010年2月). 「発表されている考古学的分析の信頼性はどの程度か? 分析技術の経年変化が黒曜石の元素分析に及ぼす影響」 . Journal of Archaeological Science . 37 (2): 243– 250. Bibcode : 2010JArSc..37..243H . doi : 10.1016/j.jas.2009.10.004 . ISSN 0305-4403 . 
  14. ^ 「データクリーニング」。Microsoft Research。2013年10月29日時点のオリジナルよりアーカイブ。 2013年10月26日閲覧
  15. ^ Hellerstein, Joseph (2008年2月27日). 「大規模データベースの定量的データクリーニング」(PDF) . EECSコンピュータサイエンス部門: 3. 2013年10月13日時点のオリジナルよりアーカイブ(PDF) . 2013年10月26日閲覧
  16. ^ a b c d「Perceptual Edge - Jonathan Koomey - 定量的データ理解のためのベストプラクティス - 2006年2月14日」(PDF)2014年10月5日時点のオリジナルよりアーカイブ(PDF) 。 2014年11月12日閲覧
  17. ^ Peleg, Roni; Avdalimov, Angelika; Freud, Tamar (2011-03-23). 「患者への携帯電話番号とメールアドレス提供:医師の視点」 . BMC Research Notes . 4 (1): 76. doi : 10.1186/1756-0500-4-76 . ISSN 1756-0500 . PMC 3076270. PMID 21426591 .   
  18. ^ 「FTCが追加データを要求」 . Pump Industry Analyst . 1999 (48): 12. 1999年12月. doi : 10.1016/s1359-6128(99)90509-8 . ISSN 1359-6128 . 
  19. ^ 「データ視覚化と記述統計によるデータの探索:定量データに共通する記述統計」 2017年。doi 10.4135 /9781529732795{{cite journal}}:ジャーナルを引用するには|journal=ヘルプ)が必要です
  20. ^マレー、ダニエル・G. (2013). Tableauでデータを分析!: Tableauソフトウェアによる高速で簡単なビジュアル分析. J. Wiley & Sons. ISBN 978-1-118-61204-0. OCLC  873810654 .
  21. ^ Evans, Michelle V.; Dallas, Tad A.; Han, Barbara A.; Murdock, Courtney C.; Drake, John M. (2017年2月28日). Brady, Oliver (編). 「図2. 順列による変数の重要度、25モデルの平均」 . eLife . 6 : e22053. doi : 10.7554/elife.22053.004 .
  22. ^ Watson, Kevin; Halperin, Israel; Aguilera-Castells, Joan; Iacono, Antonio Dello (2020年11月12日). 「表3:自己選択条件と事前設定条件における全変数の記述統計量(平均±SD)、推論統計量(95% CI)、および定性統計量(ES) . PeerJ . 8 : e10361. doi : 10.7717/peerj.10361/table-3 .
  23. ^ Nwabueze, JC (2008-05-21). 「独立変数が正規分布の場合の自己相関誤差項を持つ線形モデルの推定値の性能」ナイジェリア数理物理学協会誌9 (1). doi : 10.4314 /jonamp.v9i1.40071 . ISSN 1116-4336 . 
  24. ^ Conway, Steve (2012-07-04). 「ソーシャルネットワーク分析におけるデータ入力と視覚的出力に関する注意点」 . British Journal of Management . 25 (1): 102– 117. doi : 10.1111/j.1467-8551.2012.00835.x . hdl : 2381/36068 . ISSN 1045-3172 . S2CID 154347514 .  
  25. ^ 「顧客の購入とその他の繰り返しイベント」SQLとExcel®を使用したデータ分析、インディアナポリス、インディアナ州:John Wiley&Sons、Inc.、pp.  367– 420、2016年1月29日、doi10.1002/9781119183419.ch8ISBN 978-1-119-18341-9、 2021年5月31日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  26. ^グランジャン、マーティン (2014). 「La connaissance est un réseau」(PDF)レ・カイエ・デュ・ヌメリク10 (3): 37–54 .土井: 10.3166/lcn.10.3.37-542015 年 9 月 27 日にオリジナルからアーカイブ(PDF)されました2015 年 5 月 5 日に取得
  27. ^半導体ダイのデータ要件。データ交換フォーマットとデータ辞書、BSI英国規格、doi : 10.3403/02271298 、 2021年5月31日取得
  28. ^英国の美術館に関するデータの視覚化:棒グラフ、折れ線グラフ、ヒートマップ. 2021. doi : 10.4135/9781529768749 . ISBN 9781529768749. S2CID  240967380 .
  29. ^ a b「Stephen Few-Perceptual Edge-Selecting the Right Graph for Your Message-2004」(PDF)2014年10月5日時点のオリジナルよりアーカイブ(PDF) 。 2014年10月29日閲覧
  30. ^ 「Stephen Few-Perceptual Edge-Graph Selection Matrix」(PDF)2014年10月5日時点のオリジナルよりアーカイブ(PDF) 。 2014年10月29日閲覧
  31. ^ Swamidass, PM (2000). 「Xバーチャート」.生産・製造管理百科事典. p. 841. doi : 10.1007/1-4020-0612-8_1063 . ISBN 978-0-7923-8630-8
  32. ^ 「図C5.3. 15~19歳で就学していない者の割合(労働市場の状況別、2012年)」 . doi : 10.1787/888933119055 . 2021年6月3日閲覧。{{cite journal}}:ジャーナルを引用するには|journal=ヘルプ)が必要です
  33. ^ 「図7:家計:最終消費支出と実際の個人消費」 . doi : 10.1787/665527077310 . 2021年6月3日閲覧。{{cite journal}}:ジャーナルを引用するには|journal=ヘルプ)が必要です
  34. ^ Garnier, Elodie M.; Fouret, Nastasia; Descoins, Médéric (2020年2月3日). 「表2:散布図、バイオリン+散布図、ヒートマップ、ViSiElseグラフのグラフ比較」 . PeerJ . 8 : e8341. doi : 10.7717/peerj.8341/table-2 .
  35. ^ 「製品比較チャート:ウェアラブル」 . PsycEXTRAデータセット. 2009. doi : 10.1037/e539162010-006 . 2021年6月3日閲覧。
  36. ^ 「マッキンゼー・アンド・カンパニーに雇用されているコンサルタント」組織行動5、ラウトレッジ、pp.  77– 82、2008年7月30日、doi : 10.4324/9781315701974-15ISBN 978-1-315-70197-42021年6月3日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  37. ^ケアリー、マラキー( 198111月) 「需要関数相互排他性と集合的に網羅的な性質について」エコノミカ 48 192 ):407-415。doi10.2307 /2553697。ISSN 0013-0427。JSTOR 2553697  
  38. ^ Heckman (1978). 「離散パネルデータのための単純な統計モデルの開発と適用による、真の状態依存仮説と偽の状態依存仮説の検定」 . Annales de l'inséé (30/31): 227– 269. doi : 10.2307/20075292 . ISSN 0019-0209 . JSTOR 20075292 .  
  39. ^マンデー、スティーブン・CR(1996年)「失業、インフレ、フィリップス曲線」Current Developments in Economics、ロンドン:マクミラン・エデュケーションUK、pp.  186– 218、doi10.1007/978-1-349-24986-2_11ISBN 978-0-333-64444-72021年6月3日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  40. ^ Louangrath, Paul I. (2013). 「仮説検定におけるタイプIおよびタイプII推論誤差判定のためのアルファ検定とベータ検定」 . SSRN電子ジャーナル. doi : 10.2139/ssrn.2332756 . ISSN 1556-5068 . 
  41. ^ a bヤナマンドラ、ヴェンカタラマナ(2015年9月)「インドにおける為替レートの変動とインフレ:輸入への為替レートのパススルーの程度は?」経済分析と政策47 : 57–68 . doi : 10.1016/j.eap.2015.07.004 . ISSN 0313-5926 . 
  42. ^ファインマン、ジェーン. 「エンジニアとジャーナリストはどのように互いに助け合うことができるか?」(ビデオ). 工学技術研究所. doi : 10.1049/iet-tv.48.859 . 2021年6月3日閲覧。
  43. ^ Dul, Jan (2015). 「必要条件分析(NCA):「必要だが十分ではない」因果関係の論理と方法論」 . SSRN電子ジャーナル. doi : 10.2139/ssrn.2588480 . hdl : 1765/77890 . ISSN 1556-5068 . S2CID 219380122 .  
  44. ^ Robert Amar, James Eagan, John Stasko (2005)「情報視覚化における分析活動の低レベルコンポーネント」Wayback Machineで2015年2月13日にアーカイブ
  45. ^ウィリアム・ニューマン (1994)「プロフォーマ抄録を用いたHCI研究成果の予備的分析」 2016年3月3日アーカイブ、 Wayback Machine
  46. ^ Mary Shaw (2002)「ソフトウェア工学における優れた研究とは何か?」 2018年11月5日アーカイブ、 Wayback Machine
  47. ^ 「接続ツールはデータベースと統計製品間でデータを転送する」 .計算統計とデータ分析. 8 (2): 224. 1989年7月. doi : 10.1016/0167-9473(89)90021-2 . ISSN 0167-9473 . 
  48. ^ 「仕事に関連する情報」効果的なマネジメントのための情報入手』Routledge、pp.  48– 54、2007年7月11日、doi : 10.4324/9780080544304-16(2025年7月1日現在休止)、ISBN 978-0-08-054430-42021年6月3日取得{{citation}}: CS1 maint: DOIは2025年7月時点で非アクティブです(リンク) CS1 maint: ISBN付きの作業パラメータ(リンク
  49. ^ゴードン、ロジャー(1990年3月) 「上場企業公益のために行動するのか?」全米経済研究所ワーキングペーパー。マサチューセッツ州ケンブリッジ。doi 10.3386/w3303
  50. ^ Rivard, Jillian R (2014).証人尋問における確証バイアス:尋問者は先入観を無視できるか?(論文)フロリダ国際大学. doi : 10.25148/etd.fi14071109 (2026年1月21日現在非アクティブ).{{cite thesis}}: CS1 maint: DOIは2026年1月時点で非アクティブです(リンク
  51. ^パピノー、デイヴィッド(1988)「科学社会学は科学を信用しないのか?」科学における相対主義と実在論』ドルドレヒト:シュプリンガー・オランダ、pp.  37– 57、doi10.1007/978-94-009-2877-0_2ISBN 978-94-010-7795-82021年6月3日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  52. ^ Bromme, Rainer; Hesse, Friedrich W.; Spada, Hans 編 (2005).コンピュータを介した知識コミュニケーションにおける障壁とバイアス. doi : 10.1007/b105100 . ISBN 978-0-387-24317-7
  53. ^ホイヤー、リチャーズ (2019-06-10). ホイヤー、リチャーズ J (編).政治情報への定量的アプローチ. doi : 10.4324/9780429303647 . ISBN 9780429303647. S2CID  145675822 .
  54. ^ 「序文」(PDF) . 中央情報局. 2021年10月25日時点のオリジナルよりアーカイブ(PDF) . 2021年10月25日閲覧
  55. ^ 「図6.7. OECD諸国における識字能力スコアの差は、概して数的思考力スコアの差を反映している」 . doi : 10.1787/888934081549 . 2021年6月3日閲覧。
  56. ^リトホルツ、バリー. 「洞察力と受け取られる悪い数学」 .ブルームバーグ・ビュー. 2014年10月29日時点のオリジナルよりアーカイブ。 2014年10月29日閲覧
  57. ^ Gusnaini, Nuriska; Andesto, Rony; Ermawati (2020-12-15). 「地方政府の規模、議会の規模、人口、政府間収入が財務諸表開示に与える影響」 . European Journal of Business and Management Research . 5 (6). doi : 10.24018/ejbmr.2020.5.6.651 . ISSN 2507-1076 . S2CID 231675715 .  
  58. ^田浦俊治、永井ゆかり (2011). 「名目上のグループと実際のチームの比較」. Design Creativity 2010.ロンドン: Springer-Verlag London. pp.  165– 171. ISBN 978-0-85729-223-0
  59. ^グロス、ウィリアム・H. (19797月)「クーポン評価と金利サイクル」ファイナンシャル・アナリスト・ジャーナル35 4):68-71。doi10.2469/faj.v35.n4.68。ISSN 0015-198X 
  60. ^ 「25. 一般政府総支出」 . doi : 10.1787/888932348795 . 2021年6月3日閲覧。
  61. ^ダベンポート、トーマス、ハリス、ジーン(2007年)。『分析力の競争』オライリー社。ISBN 978-1-4221-0332-6
  62. ^ Aarons, D. (2009).報告書によると、各州は生徒データシステムの構築に向けて順調に進んでいる。Education Week, 29 (13), 6.
  63. ^ Rankin, J. (2013年3月28日).データシステムとレポートがデータ分析エラーの蔓延にどう対処するか、あるいは拡大させるか、そして教育リーダーがどのように支援できるか。Wayback Machineに2019年3月26日にアーカイブ。テクノロジー情報センター・フォー・アドミニストレーティブ・リーダーシップ(TICAL)スクール・リーダーシップ・サミットで行われたプレゼンテーション。
  64. ^ Brödermann、Eckart J. (2018)、「第 2.2.1 条 (セクションの範囲)」商法、Nomos Verlagsgesellschaft mbH & Co. KG、p. 525、土井10.5771/9783845276564-525ISBN 978-3-8452-7656-42021年6月3日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  65. ^ Adèr 2008a、337ページ。
  66. ^ Kjell, Oscar NE; Thompson, Sam (2013年12月19日). 「各条件(N = 参加者数)および従属変数(DV)における欠損値の平均、標準偏差、頻度を示す記述統計量」 . PeerJ . 1 : e231. doi : 10.7717/peerj.231/table-1 .
  67. ^外れ値観測への対処方法、ASTM International、doi : 10.1520/e0178-16a 2021年6月3日取得
  68. ^ 「ダミー変数の代替コーディングスキーム」ダミー変数を使用した回帰、ニューベリーパーク、カリフォルニア州:SAGE Publications、Inc.、pp.  64– 75、1993、doi10.4135 / 9781412985628.n5ISBN 978-0-8039-5128-02021年6月3日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  69. ^アデール 2008a、338–341 ページ。
  70. ^ニューマン、イザドア(1998年)『質的・量的研究の方法論:相互作用的連続体の探究』南イリノイ大学出版局、ISBN 0-585-17889-5. OCLC  44962443 .
  71. ^ Terwilliger, James S.; Lele, Kaustubh (1979年6月). 「内部一貫性、再現性、均質性の間のいくつかの関係性」 .教育測定ジャーナル. 16 (2): 101– 108. doi : 10.1111/j.1745-3984.1979.tb00091.x . ISSN 0022-0655 . 
  72. ^アデール 2008a、341–342 ページ。
  73. ^ Adèr 2008a、344ページ。
  74. ^ Tabachnick & Fidell、2007年、87-88ページ。
  75. ^ランダムサンプリングおよびランダム化手順、BSI英国規格、doi10.3403/30137438 、 2021年6月3日取得
  76. ^アデール 2008a、344–345 ページ。
  77. ^フォス、クリスチャン。ヘドリック、ブランドン P.エズクラ、マーティン・D. (2016 年 1 月 18 日) 「図 4: メインサンプルの重心サイズ回帰分析」ピアJ4:e1589。土井: 10.7717/peerj.1589/fig-4
  78. ^ Adèr 2008a、345ページ。
  79. ^アデール 2008a、345–346 ページ。
  80. ^アデール 2008a、346–347 ページ。
  81. ^アデール 2008a、349–353 ページ。
  82. ^ Billings SA「非線形システム同定:時間、周波数、時空間領域におけるNARMAX法」Wiley、2013年
  83. ^ Adèr 2008b、363ページ。
  84. ^ 「Exploratory Data Analysis」Python® for R Users、Hoboken、NJ、USA:John Wiley & Sons、Inc.、pp.  119– 138、2017年10月13日、doi10.1002/9781119126805.ch4hdl11380/971504ISBN 978-1-119-12680-52021年6月3日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  85. ^ 「探索的データ分析、視覚化、仮説検証への取り組み – 探索的データ分析、地理視覚化、データ」空間分析CRC Press、pp.  106– 139、2015年7月28日、doi : 10.1201/b18808-8ISBN 978-0-429-06936-9, S2CID  133412598 , 2021年6月3日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  86. ^ 「カテゴリーについての仮説」統計入門:簡潔でわかりやすいガイド、ロンドン:SAGE Publications Ltd、pp.  138– 151、2010年、doi10.4135/9781446287873.n14ISBN 978-1-84920-098-12021年6月3日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  87. ^ Liquet, Benoit; Riou, Jérémie (2013-06-08). 「一般化線形モデルにおける説明変数の多重変換を試行する際の有意水準の補正」. BMC Medical Research Methodology . 13 (1): 75. doi : 10.1186/1471-2288-13-75 . ISSN 1471-2288 . PMC 3699399. PMID 23758852 .   
  88. ^ a b c Mcardle, John J. (2008). 「確認的分析と探索的分析における倫理的問題」 . PsycEXTRAデータセット. doi : 10.1037/e503312008-001 . 2021年6月3日閲覧。
  89. ^アデール 2008b、361–362 ページ。
  90. ^ Ader 2008b、361–371 ページ。
  91. ^ Benson, Noah C; Winawer, Jonathan (2018年12月). 「網膜トピックマップのベイズ解析」 . eLife . 7 e40224. doi : 10.7554/elife.40224 . PMC 6340702. PMID 30520736 .  補足ファイル1. クロスバリデーションスキーマ。doi : 10.7554 /elife.40224.014
  92. ^ Hsiao, Cheng (2014)、「Cross-Sectionally Dependent Panel Data」パネルデータ分析、ケンブリッジ:ケンブリッジ大学出版局、pp.  327– 368、doi : 10.1017/cbo9781139839327.012ISBN 978-1-139-83932-72021年6月3日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  93. ^ Hjorth, JS Urban (2017-10-19)、「クロスバリデーション」Computer Intensive Statistical Methods、Chapman and Hall/CRC、pp.  24– 56、doi : 10.1201/9781315140056-3ISBN 978-1-315-14005-62021年6月3日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  94. ^ Sheikholeslami, Razi; Razavi, Saman; Haghnegahdar, Amin (2019-10-10). 「モデルがクラッシュした場合の対処法:地球・環境システムモデルのグローバル感度解析に関する推奨事項」 . Geoscientific Model Development . 12 (10): 4275– 4296. Bibcode : 2019GMD....12.4275S . doi : 10.5194/gmd-12-4275-2019 . ISSN 1991-9603 . S2CID 204900339 .  
  95. ^国連開発計画 (2018). 「人間開発複合指数」.人間開発指数・指標2018.国連. pp.  21– 41. doi : 10.18356/ce6f8e92-en . S2CID 240207510 . 
  96. ^ Wiley, Matt; Wiley, Joshua F. (2019)、「多変量データ可視化」Advanced R Statistical Programming and Data Models、カリフォルニア州バークレー:Apress、pp.  33– 59、doi10.1007/978-1-4842-2872-2_2ISBN 978-1-4842-2871-5, S2CID  86629516 , 2021年6月3日取得{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク
  97. ^ Mailund, Thomas (2022). 『Rではじめるデータサイエンス4:データサイエンティストのためのデータ分析、可視化、モデリング』(第2版). ISBN 978-148428155-0
  98. ^ 「機械学習コミュニティがヒッグスに挑戦」 Symmetry Magazine、2014年7月15日。2021年4月16日時点のオリジナルよりアーカイブ。 2015年1月14日閲覧
  99. ^ 「Data.Gov:Long-Term Pavement Performance (LTPP)」 2016年5月26日. 2017年11月1日時点のオリジナルよりアーカイブ。 2017年11月10日閲覧
  100. ^ Nehme, Jean (2016年9月29日). 「LTPP国際データ分析コンテスト」 . 連邦道路局. 2017年10月21日時点のオリジナルよりアーカイブ2017年10月22日閲覧。

参考文献

さらに読む

  • Adèr, HJ & Mellenbergh, GJ (DJ Hand の協力あり) (2008). 『研究手法に関するアドバイス:コンサルタントのための手引き』 オランダ、ホイゼン:Johannes van Kessel Publishing. ISBN 978-90-79418-01-5
  • Chambers, John M.; Cleveland, William S .; Kleiner, Beat; Tukey, Paul A. (1983). Graphical Methods for Data Analysis , Wadsworth/Duxbury Press. ISBN 0-534-98052-X
  • ファンダンゴ、アルマンド (2017). Pythonデータ分析 第2版. Packt Publishers. ISBN 978-1787127487
  • ジュラン、ジョセフ・M.; ゴッドフリー、A. ブラントン (1999).ジュラン品質ハンドブック 第5版.ニューヨーク: マグロウヒル. ISBN 0-07-034003-X
  • ルイス・ベック、マイケル・S. (1995). 『データ分析入門』、セージ出版、ISBN 0-8039-5772-6
  • NIST/SEMATECH (2008)統計手法ハンドブック
  • Pyzdek, T, (2003).品質工学ハンドブック, ISBN 0-8247-4614-7
  • リチャード・ヴェリアード(1984年)『プラグマティック・データ・アナリシス』オックスフォード:ブラックウェル・サイエンティフィック・パブリケーションズ、ISBN 0-632-01311-7
  • Tabachnick, BG; Fidell, LS (2007). 『多変量統計の利用』第5版. ボストン: Pearson Education, Inc. / Allyn and Bacon, ISBN 978-0-205-45938-4