統計は、データの収集、編成、分析、解釈、および提示に関係する分野です。[1] [2] [3]統計を科学的、産業的、または社会的問題に適用する場合、調査対象の母集団または統計モデルから始めるのが一般的です。集団は、「国に住むすべての人々」や「結晶を構成するすべての原子」など、さまざまな人々またはオブジェクトのグループである可能性があります。統計は、調査や実験の設計に関するデータ収集の計画を含む、データのあらゆる側面を扱います。[4]
とき国勢調査のデータを収集することができない、統計学者は、特定の実験の設計と調査開発することによって、データを収集したサンプルを。代表的なサンプリングは、推論と結論がサンプルから母集団全体に合理的に拡張できることを保証します。実験的研究は、研究中のシステムの測定を行うシステムを操作し、次に操作が測定の値を変更したかどうかを決定するために、同じ手順を使用して追加の測定を行うことを含みます。対照的に、観察研究は実験的操作を含みません。
二つの主要な統計的手法がで使用されているデータ分析:記述統計使用したサンプルからのデータをまとめ、インデックスのような平均値や標準偏差、および推測統計ランダムな変動(例えば、観測的エラーの対象となるデータから結論を引き出します、サンプリング変動)。[5]記述統計は、ほとんどの場合、分布(サンプルまたは母集団)の2セットのプロパティに関係します。中心傾向(または場所)は、分布の中心値または典型的な値を特徴付けようとしますが、分散(または変動性)は、分布の範囲を特徴付けます。ディストリビューションのメンバーは、その中心から離れ、お互いに離れます。数理統計学の推論は、ランダムな現象の分析を扱う確率論の枠組みの下で行われます。
標準的な統計手順には、2つの統計データセット、または理想化されたモデルから抽出されたデータセットと合成データ間の関係のテストにつながるデータの収集が含まれます。2つのデータセット間の統計的関係について仮説が提案され、これは、2つのデータセット間に関係がないという理想化されたヌル仮説の代替として比較されます。帰無仮説の棄却または反証は、検定で使用されるデータが与えられた場合に、帰無仮説が偽であると証明できる意味を定量化する統計的検定を使用して行われます。帰無仮説から作業すると、2つの基本的な形式のエラーが認識されます。タイプIエラー(帰無仮説が誤って拒否されて「誤検知」が発生する)とタイプIIエラー(帰無仮説が拒否されず、集団間の実際の関係が失われる)です。 「偽陰性」)。[6]十分なサンプルサイズの取得から適切なヌル仮説の指定に至るまで、このフレームワークに関連する複数の問題が発生しています。[5]
統計データを生成する測定プロセスにもエラーが発生する可能性があります。これらのエラーの多くは、ランダム(ノイズ)または系統的(バイアス)に分類されますが、他のタイプのエラー(たとえば、アナリストが誤った単位を報告した場合などの失敗)も発生する可能性があります。欠測データまたは打ち切りの存在は、偏った推定をもたらす可能性があり、これらの問題に対処するための特定の手法が開発されています。
前書き
統計は、科学の数学的な体であることの収集、分析、解釈や説明、およびプレゼンテーションに関連するデータを、[7]またはの支店として数学。[8]統計学は、数学の一分野ではなく、別個の数理科学であると考える人もいます。多くの科学的調査はデータを利用していますが、統計は不確実性と不確実性に直面した意思決定の文脈でのデータの使用に関係しています。[9] [10]
問題に統計を適用する場合、調査対象の母集団またはプロセスから始めるのが一般的な方法です。人口は、「国に住むすべての人々」や「結晶を構成するすべての原子」など、さまざまなトピックになります。理想的には、統計学者は母集団全体に関するデータを編集します(国勢調査と呼ばれる操作)。これは、政府の統計機関によって組織される場合があります。記述統計を使用して、母集団データを要約できます。数値記述子には、連続データ(収入など)の平均と標準偏差が含まれますが、頻度とパーセンテージは、カテゴリデータ(教育など)を記述する上でより役立ちます。
国勢調査が実行可能でない場合、サンプルと呼ばれる母集団の選択されたサブセットが調査されます。母集団を代表するサンプルが決定されると、観察または実験の設定でサンプルメンバーのデータが収集されます。ここでも、記述統計を使用してサンプルデータを要約できます。ただし、サンプルの描画にはランダム性の要素が含まれています。したがって、サンプルの数値記述子も不確実になりがちです。母集団全体について意味のある結論を引き出すには、推論統計が必要です。サンプルデータのパターンを使用して、ランダム性を考慮しながら、表された母集団に関する推論を引き出します。これらの推論は、データに関するイエス/ノーの質問への回答(仮説検定)、データの数値特性の推定(推定)、データ内の関連の記述(相関)、およびデータ内の関係のモデル化(たとえば、回帰分析)。推論は、調査対象の母集団内またはそれに関連する未観測値の予測、予測、および推定にまで拡張できます。それは含めることができ、外挿および補間の時系列や空間データ、およびデータマイニングを。
数理統計
数理統計学は、統計学への数学の応用です。これに使用される数学的手法には、数学的分析、線形代数、確率論的分析、微分方程式、および測度論的確率論が含まれます。[11] [12]
歴史
統計的干渉に関する初期の著作は、8世紀から13世紀のイスラム黄金時代のアラブの数学者と暗号学者にまでさかのぼります。Al-Khalil(717–786)は、母音の有無にかかわらず、考えられるすべてのアラビア語をリストするために、順列と組み合わせの最初の使用を含む暗号メッセージの本を書きました。[13] Al-Kindiは、彼の著書「暗号化メッセージの解読に関する原稿」で、周波数分析を使用して暗号化されたメッセージを解読する方法について詳細に説明しています。Al-Kindiはまた、統計的推論の最も初期の既知の使用法を作成しましたが、彼とその後のアラブの暗号学者は、暗号化されたメッセージをデコードするための初期の統計的手法を開発しました。Ibn Adlan(1187–1268)は、周波数分析でのサンプルサイズの使用に関して、後に重要な貢献をしました。[13]
統計に関する最も初期のヨーロッパの著作は1663年にさかのぼり、ジョン・グラントによる死亡表に関する自然および政治的観察の出版がありました。[14]統計的思考の初期の適用は、人口統計学的および経済的データ、したがってその語源に基づいて政策を立てる州のニーズを中心に展開されていました。統計学の分野は19世紀初頭に拡大し、一般的なデータの収集と分析が含まれるようになりました。今日、統計は政府、企業、自然科学、社会科学で広く採用されています。
現代統計の数学的基礎は、ジェロラモカルダーノ、ブレーズパスカル、ピエールドフェルマーによる確率論の発展とともに17世紀に築かれました。数学的確率論は運が左右するゲームの研究から生まれましたが、確率の概念はすでに中世の法律やフアン・カラミュエルなどの哲学者によって検討されていました。[15]最小二乗法は、最初により記載されたアドリアン=マリ・ルジャンドル1805年。
現代の統計学の分野は、19世紀後半から20世紀初頭にかけて3つの段階で出現しました。[16]世紀の変わり目に、最初の波は、統計を科学だけでなく産業や政治でも分析に使用される厳密な数学的分野に変換したフランシス・ガルトンとカール・ピアソンの仕事によって主導されました。 。ゴルトンの貢献には、標準偏差、相関、回帰分析の概念の導入、およびこれらの方法のさまざまな人間の特性(身長、体重、まつげの長さなど)の研究への適用が含まれていました。[17]ピアソンが開発ピアソンの積率相関係数の積として定義される、[18]モーメント法サンプルに分布のフィッティングとのためのピアソン分布多くの他のものの間に、。[19]ガルトンとピアソンは、数理統計学と生物統計学(当時は生物統計学と呼ばれる)の最初のジャーナルとしてBiometrikaを設立し、後者はロンドン大学ユニバーシティカレッジに世界初の大学統計学部を設立しました。[20]
ロナルド・フィッシャーは、レディ・テイスティング・ティーの実験中に「帰無仮説」という用語を作り出しました。これは、「実験の過程で証明または確立されることはありませんが、おそらく反証される」ものです。[21] [22]
1910年代と20年代の第2の波は、ウィリアム・シーリー・ゴセットによって開始され、世界中の大学の学問分野を定義する教科書を書いたロナルド・フィッシャーの洞察で最高潮に達しました。フィッシャーの最も重要な出版物は、1918年の独創的な論文「メンデル継承の仮定に関する親族間の相関関係」(統計用語である分散を最初に使用したもの)、1925年の古典的な研究者のための統計的手法および1935年の実験計画法でした。[23] [24] [25]ここで、彼は実験モデルの厳密な設計を開発しました。彼は、十分性、補助統計、フィッシャーの線形判別分析、およびフィッシャー情報の概念を考案しました。[26]彼の1930本の中で自然淘汰ザ遺伝理論、彼は様々に統計を適用し、生物のような概念フィッシャーの原理[27] (これAWFエドワーズは「中おそらく最も有名な引数と呼ばれる進化生物学」)とランナウェイ説、[28 ] [29] [30] [31] [32] [33]進化論に見られる正のフィードバック暴走効果に関する性淘汰の概念。
主に初期の開発の洗練と拡大を見た最後の波は、1930年代のエゴンピアソンとイェジネイマンの共同作業から生まれました。彼らは、「タイプII」のエラー、検定力、信頼区間の概念を紹介しました。1934年のJerzyNeymanは、層化ランダムサンプリングは、一般に、目的(クォータ)サンプリングよりも優れた推定方法であることを示しました。[34]
今日、統計的手法は、意思決定を含むすべての分野に適用され、照合されたデータから正確な推論を行い、統計的方法論に基づいて不確実性に直面して意思決定を行います。最新のコンピューターを使用することで、大規模な統計計算が促進され、手動で実行するのが現実的ではない新しい方法も可能になりました。統計は、ビッグデータの分析方法などの活発な研究分野であり続けています。[35]
統計データ
データ収集
サンプリング
完全な国勢調査データを収集できない場合、統計学者は特定の実験計画法と調査サンプルを作成してサンプルデータを収集します。統計自体も、統計モデルによる予測と予測のためのツールを提供します。
母集団全体のガイドとしてサンプルを使用するには、サンプルが母集団全体を真に表すことが重要です。代表的なサンプリングにより、推論と結論がサンプルから母集団全体に安全に拡張できることが保証されます。主要な問題は、選択されたサンプルが実際に代表的である範囲を決定することにあります。統計は、サンプルおよびデータ収集手順内のバイアスを推定して修正する方法を提供します。研究の開始時にこれらの問題を軽減し、母集団に関する真実を識別する能力を強化できる実験計画法もあります。
サンプリング理論は、確率論の数学的分野の一部です。確率は、数理統計でサンプル統計のサンプリング分布を調査するために使用され、より一般的には、統計手順のプロパティを調査します。統計的手法の使用は、検討中のシステムまたは母集団が手法の仮定を満たしている場合に有効です。古典的な確率論とサンプリング理論の観点の違いは、大まかに言って、確率論は全母集団の与えられたパラメーターから始まり、サンプルに関連する確率を推定することです。ただし、統計的推論は反対方向に移動します。つまり、サンプルからより大きな母集団または総母集団のパラメーターに帰納的に推論します。
実験的および観察的研究
統計研究プロジェクトの一般的な目標は、因果関係を調査することであり、特に、予測変数または独立変数の値の変化が従属変数に与える影響について結論を出すことです。因果統計研究には、実験研究と観察研究の2つの主要なタイプがあります。どちらのタイプの研究でも、独立変数(または複数の変数)の違いが従属変数の動作に及ぼす影響が観察されます。2つのタイプの違いは、調査が実際にどのように行われるかにあります。それぞれが非常に効果的です。実験的研究では、調査中のシステムの測定を行い、システムを操作してから、同じ手順を使用して追加の測定を行い、操作によって測定値が変更されたかどうかを判断します。対照的に、観察研究は実験的操作を含みません。代わりに、データが収集され、予測子と応答の間の相関が調査されます。データ分析のツールはランダム化された研究からのデータで最もよく機能しますが、自然実験や観察研究[36]など、統計学者が修正されたより構造化された推定方法を使用する他の種類のデータにも適用されます(例:一貫性のある推定量を生成する差分推定と操作変数の違いなど)。
実験
統計実験の基本的な手順は次のとおりです。
- 次の情報を使用して、研究の反復数を見つけることを含む、研究の計画:治療効果のサイズに関する予備的推定、対立仮説、および推定された実験的変動性。実験対象の選択と研究の倫理を考慮する必要があります。統計学者は、実験が(少なくとも)1つの新しい治療法を標準的な治療法または対照と比較して、治療効果の違いを偏りなく推定できるようにすることを推奨しています。
- 実験計画法、交絡変数の影響を減らすためのブロッキングの使用、および被験者への治療のランダムな割り当てにより、治療効果と実験誤差の偏りのない推定が可能になります。この段階で、実験者と統計学者は、実験のパフォーマンスをガイドし、実験データの一次分析を指定する実験プロトコルを作成します。
- 実験プロトコルに従って実験を実行し、実験プロトコルに従ってデータを分析します。
- 二次分析でデータセットをさらに調べて、将来の研究のための新しい仮説を提案します。
- 研究結果の文書化と提示。
人間の行動に関する実験には特別な懸念があります。有名なホーソン研究では、Western ElectricCompanyのホーソン工場の労働環境の変化を調査しました。研究者たちは、照明の増加が組立ラインの作業者の生産性を向上させるかどうかを判断することに興味を持っていました。研究者は最初にプラントの生産性を測定し、次にプラントの領域の照明を変更し、照明の変化が生産性に影響を与えるかどうかを確認しました。(実験条件下で)生産性が実際に向上したことが判明しました。しかし、この研究は今日、実験手順の誤り、特に対照群の欠如と失明について強く批判されています。ホーソーン効果は(この場合、労働者の生産性)結果が観察自体による変更されたことを見つけることを意味します。ホーソン研究の人々は、照明が変更されたためではなく、観察されていたために、より生産的になりました。[37]
観察研究
観察研究の例は、喫煙と肺がんとの関連を調査する研究です。このタイプの調査では、通常、調査を使用して関心のある領域に関する観測値を収集し、統計分析を実行します。この場合、研究者はおそらくコホート研究を通じて喫煙者と非喫煙者の両方の観察結果を収集し、次に各グループの肺がんの症例数を探します。[38]ケースコントロール研究では、関心の結果とない人(例えば肺がん)が参加するよう招待され、その曝露歴が収集されている観察研究のもう一つのタイプです。
データの種類
測定レベルの分類法を作成するために、さまざまな試みがなされてきました。精神物理学者のスタンリー・スミス・スティーブンスは、名目、順序、間隔、および比率のスケールを定義しました。名目上の測定値には、値の間に意味のある順位がなく、1対1(全単射)変換が可能です。順序測定では、連続する値の間に不正確な違いがありますが、それらの値に対して意味のある順序があり、順序を保持する変換が可能です。間隔測定には、定義された測定間の意味のある距離がありますが、ゼロ値は任意であり(摂氏または華氏での経度と温度の測定の場合のように)、任意の線形変換が可能です。比率測定には、意味のあるゼロ値と定義された異なる測定間の距離の両方があり、再スケーリング変換が可能です。
名目または順序の測定値のみに準拠する変数は数値的に合理的に測定できないため、カテゴリ変数としてグループ化される場合がありますが、比率および間隔の測定値は、数値の性質上、離散または連続のいずれかの量的変数としてグループ化されます。このような区別は、コンピュータサイエンスのデータ型と大まかに相関することがよくあります。つまり、二分カテゴリ変数はブールデータ型、整数データ型に任意に割り当てられた整数を持つ多項カテゴリ変数、および実際のデータ型を含む連続変数で表すことができます。浮動小数点計算。ただし、コンピュータサイエンスのデータ型から統計データ型へのマッピングは、後者のどの分類が実装されているかによって異なります。
他の分類が提案されています。たとえば、Mosteller and Tukey(1977)[39]は、成績、ランク、カウントされた分数、カウント、量、およびバランスを区別しました。Nelder(1990)[40]は、データの連続カウント、連続比率、カウント比率、およびカテゴリモードについて説明しました。(参照:Chrisman(1998)、[41] van den Berg(1991)。[42])
さまざまな種類の測定手順から得られたデータにさまざまな種類の統計手法を適用することが適切かどうかの問題は、変数の変換と研究質問の正確な解釈に関する問題によって複雑になります。「データとそれらが説明する内容との関係は、特定の種類の統計ステートメントが、一部の変換では不変ではない真理値を持っている可能性があるという事実を反映しているにすぎません。変換を検討するのが賢明かどうかは、答えようとしている質問によって異なります。 。」[43]:82
メソッド
記述統計
要約統計量(でカウント名詞センス)は要約統計量定量のコレクションの特徴について説明又は要約こと情報を、[44]ながら記述統計において質量名詞の意味は、これらの統計を用いて分析するプロセスです。記述統計は、データを使用してデータのサンプルが表すと考えられる母集団について学習するのではなく、サンプルを要約することを目的としているという点で、推論統計(または誘導統計)とは区別されます。
推論統計
統計的推論は、データ分析を使用して、基礎となる確率分布のプロパティを推定するプロセスです。[45]推論統計分析は、たとえば仮説をテストし、推定値を導き出すことによって、母集団の特性を推測します。観測されたデータセットは、より多くの母集団からサンプリングされたものと想定されています。推論統計は、記述統計と対比することができます。記述統計は、観測されたデータのプロパティのみに関係しており、データがより多くの母集団からのものであるという仮定に基づいていません。
推論統計の用語と理論
統計、推定量、および極めて重要な量
与えられた確率分布を持つ独立同分布(IID)ランダム変数を考えてみましょう。標準的な統計的推論と推定理論は、ランダムサンプルをこれらのIID変数の列ベクトルによって与えられるランダムベクトルとして定義します。[46]調査中の母集団は、未知のパラメーターを持つ可能性のある確率分布によって記述されます。
統計は、ランダムサンプルの関数である確率変数ですが、未知のパラメーターの関数ではありません。ただし、統計の確率分布には未知のパラメーターがある場合があります。ここで、未知のパラメーターの関数について考えてみましょう。推定量は、そのような関数を推定するために使用される統計です。一般的に使用される推定量には、標本平均、不偏標本分散、標本共分散が含まれます。
ランダムサンプルと未知のパラメーターの関数であるが、確率分布が未知のパラメーターに依存しない確率変数は、ピボット量またはピボットと呼ばれます。広く使用されているピボットには、zスコア、カイ2乗統計、およびスチューデントのt値が含まれます。
特定のパラメーターの2つの推定量の間で、平均二乗誤差が小さい方が効率的であると言われます。さらに、推定量は、その期待値が推定される未知のパラメーターの真の値に等しい場合は不偏であり、その期待値がそのようなパラメーターの真の値の限界に収束する場合は漸近的に不偏であると言われます。
推定のために他の望ましい特性は、次のとおりUMVUE全て推定されるパラメータの可能な値(これは、通常効率より確認する容易性である)との最安分散有する推定一貫した推定確率に収束するようなパラメータの真値を。
これはまだ、いくつかの方法が提案されている与えられた状況で推定を取得し、計算を実行する方法の疑問を残し:モーメント法、最尤法、最小二乗法とのより最近の方法の方程式を推定します。
帰無仮説と対立仮説
統計情報の解釈には、多くの場合、変数間に関係が存在しない、または時間の経過とともに変化が発生しないという帰無仮説の作成が含まれる場合があります。[47] [48]
初心者のための最良の例は、刑事裁判が遭遇した苦境です。帰無仮説、H 0は、対立仮説、Hに対し被告は、無実であると主張1は、被告が有罪であると主張しています。起訴は罪悪感の疑いのために来ます。H 0は(現状維持)Hに反対に立つ1とHしない限り維持されている1は、「合理的な疑いを超えて、」証拠によってサポートされています。ただし、この場合の「H 0の却下の失敗」は、無実を意味するのではなく、単に証拠が有罪判決を下すには不十分であったことを意味します。陪審は必ずしもないように受け入れH 0が、拒否に失敗したH 0を。帰無仮説を「証明」することはできませんが、タイプIIのエラーをテストする検出力テストを使用して、それが真にどれだけ近いかをテストできます。
どのような統計は、呼び出し対立仮説は、単純に矛盾する仮説である帰無仮説を。
エラー
帰無仮説から作業すると、2つの広いカテゴリのエラーが認識されます。
- ヌル仮説が誤って拒否され、「誤検知」が発生するタイプIエラー。
- 帰無仮説が棄却されず、母集団間の実際の差が見落とされ、「偽陰性」が発生するタイプIIエラー。
標準偏差は、サンプル内の個々の観測値がサンプルや母平均などの中心値と異なる程度を指し、標準誤差は、サンプル平均と母平均の差の推定値を指します。
統計誤差は、そのよりによって観察異なる量で期待値、残差が値から観察異なる量である期待値の推定は、(また、予測と呼ばれる)所与の試料上前提。
平均二乗誤差は、広く使用されている推定量のクラスである効率的な推定量を取得するために使用されます。二乗平均平方根誤差は、単に平均二乗誤差の平方根です。
多くの統計的手法は、残差平方和を最小化しようとします。これらは、最小二乗偏差とは対照的に、「最小二乗法」と呼ばれます。後者は小さなエラーと大きなエラーに等しい重みを与えますが、前者は大きなエラーに大きな重みを与えます。残差平方和も微分可能であり、回帰を行うための便利なプロパティを提供します。最小二乗に適用し、線形回帰と呼ばれる、通常の最小二乗法、最小二乗法を適用非線形回帰と呼ばれる最小二乗非線形。また、線形回帰モデルでは、モデルの非決定論的部分は、誤差項、外乱、またはより単純にノイズと呼ばれます。線形回帰と非線形回帰はどちらも、多項式最小二乗で扱われます。これは、従属変数(y軸)の予測における分散を、独立変数(x軸)と偏差(エラー、ノイズ、外乱)推定(適合)曲線から。
統計データを生成する測定プロセスにもエラーが発生する可能性があります。これらのエラーの多くは、ランダム(ノイズ)または系統的(バイアス)に分類されますが、他のタイプのエラー(たとえば、アナリストが誤った単位を報告した場合などの失敗)も重要になる可能性があります。欠測データまたは打ち切りの存在は、偏った推定をもたらす可能性があり、これらの問題に対処するための特定の手法が開発されています。[49]
区間推定
ほとんどの研究は母集団の一部のみをサンプリングするため、結果は母集団全体を完全に表すわけではありません。サンプルから得られた推定値は、母集団の値を概算するだけです。信頼区間により、統計学者は、サンプル推定値が母集団全体の真の値とどの程度一致しているかを表すことができます。多くの場合、それらは95%の信頼区間として表されます。正式には、値の95%信頼区間は、サンプリングと分析が同じ条件で繰り返された場合(異なるデータセットが生成される場合)、すべての可能なケースの95%で真の(母集団)値が含まれる範囲です。 。これは、真の値が信頼区間にある確率が95%であることを意味するものではありません。頻度主義の観点からは、真の値は確率変数ではないため、このような主張は意味がありません。真の値が指定された間隔内にあるかどうか。ただし、データがサンプリングされ、信頼区間を構築する方法の計画が与えられる前に、まだ計算されていない区間が真の値をカバーする確率は95%です。この時点で、区間の限界は、まだ観測されていない確率変数です。真の値を含む確率が与えられていると解釈できる間隔を生成する1つのアプローチは、ベイズ統計から信頼できる間隔を使用することです。このアプローチは、「確率」が意味するものを解釈する別の方法に依存します。ベイズ確率として。
原則として、信頼区間は対称または非対称にすることができます。間隔は、パラメーター(左側の間隔または右側の間隔)の下限または上限として機能するため非対称にすることができますが、両側の間隔は推定値の対称性に違反して構築されるため、非対称にすることもできます。信頼区間の限界に漸近的に到達することがあり、これらは真の限界を近似するために使用されます。
意義
統計では、分析中の質問に対して単純な「はい/いいえ」タイプの回答が得られることはめったにありません。解釈は、多くの場合、数値に適用される統計的有意性のレベルにまで下がり、多くの場合、値が帰無仮説を正確に棄却する確率を指します(p値と呼ばれることもあります)。
標準的なアプローチ[46]は、対立仮説に対して帰無仮説を検定することです。クリティカル領域は、帰無仮説を反論する推定そのリードの値のセットです。したがって、タイプIの過誤の確率は、帰無仮説が真である場合に推定量が臨界領域に属する確率(統計的有意性)であり、タイプIIの過誤の確率は、推定量が与えられた臨界領域に属さない確率です。代替仮説が正しいこと。テストの統計的検出力は、帰無仮説が偽である場合に、帰無仮説を正しく棄却する確率です。
統計的有意性に言及することは、必ずしも全体的な結果が現実世界の用語で有意であることを意味するわけではありません。たとえば、薬の大規模な研究では、薬が統計的に有意であるが非常に小さな有益な効果を持っていることが示される場合があり、その結果、薬は患者を著しく助ける可能性は低いです。
原則として、統計的有意性の許容レベルは議論の対象となる可能性がありますが、有意水準は、検定が帰無仮説を棄却できる最大のp値です。この検定は、p値が、ヌル仮説が真であると仮定して、少なくとも検定統計量と同じくらい極端な結果を観測する確率であると言うことと論理的に同等です。したがって、有意水準が小さいほど、タイプIのエラーが発生する可能性は低くなります。
通常、いくつかの問題がこのフレームワークに関連しています(仮説検定の批判を参照)。
- 統計的に非常に有意な差は、実際には意味がない場合がありますが、これを説明するためにテストを適切に定式化することは可能です。1つの応答には、有意水準のみを報告するだけでなく、仮説が拒否されたか受け入れられたかを報告するときにp値を含めることが含まれます。ただし、p値は、観察された効果のサイズや重要性を示すものではなく、大規模な研究における小さな違いの重要性を誇張しているように見える場合もあります。より良く、ますます一般的なアプローチは、信頼区間を報告することです。これらは、仮説検定またはp値と同じ計算から生成されますが、効果のサイズとそれを取り巻く不確実性の両方を表します。
- 転置された条件付きの誤り、別名検察官の誤り:仮説検定アプローチにより、1つの仮説(帰無仮説)が支持されるため、批判が生じます。評価されるのは、帰無仮説が与えられた場合の観測結果の確率であり、観測された結果が与えられた場合の帰無仮説。このアプローチの代替案は、事前確率を確立する必要がありますが、ベイズ推定によって提供されます。[50]
- 帰無仮説を棄却しても、対立仮説が自動的に証明されるわけではありません。
- 推論統計のすべてがサンプルサイズに依存しているため、ファットテールの下ではp値が深刻に誤って計算される可能性があります。[説明が必要]
例
いくつかのよく知られている統計的検定と手順は次のとおりです。
- 分散分析(ANOVA)
- カイ二乗検定
- 相関
- 因子分析
- マンホイットニーU
- 平均二乗加重偏差(MSWD)
- ピアソンの積率相関係数
- 回帰分析
- スピアマンの順位相関係数
- StudentのT検定
- 時系列分析
- コンジョイント分析
探索的データ分析
探索的データ分析(EDA)は、データセットを分析し て主な特性を要約するためのアプローチであり、多くの場合、視覚的な方法を使用します。統計モデルが使用されるか、またはないが、主にEDAは、データが正式なモデリングや仮説のテストタスクを超えて私たちに伝えることができるか見るためであることができます。
悪用
統計の誤用は、説明と解釈に微妙ではあるが重大なエラーを引き起こす可能性があります。経験豊富な専門家でさえそのようなエラーを犯すという意味では微妙であり、壊滅的な決定エラーにつながる可能性があるという意味では深刻です。たとえば、社会政策、医療行為、橋などの構造物の信頼性はすべて、統計の適切な使用に依存しています。
統計的手法が正しく適用されている場合でも、専門知識が不足している人にとっては結果を解釈するのが難しい場合があります。データの傾向の統計的有意性(サンプルのランダムな変動によって傾向が引き起こされる可能性の程度を測定する)は、その重要性の直感的な感覚と一致する場合と一致しない場合があります。人々が日常生活の中で情報を適切に扱うために必要な一連の基本的な統計スキル(および懐疑論)は、統計リテラシーと呼ばれます。
統計的知識は、プレゼンターに有利なデータのみを解釈する方法を見つけることによって、意図的に悪用されることが非常に多いという一般的な認識があります。[51]統計に対する不信と誤解は、「嘘、大嘘、統計の3種類の嘘があります」という引用に関連しています。統計の誤用は、不注意と意図の両方である可能性があり、統計でウソをつく方法[51]は、さまざまな考慮事項の概要を示しています。統計の使用と誤用を明らかにするために、特定の分野で使用されている統計手法のレビューが行われています(Warne、Lazo、Ramos、およびRitter(2012)など)。[52]
統計の誤用を回避する方法には、適切な図の使用とバイアスの回避が含まれます。[53]誤用は、結論が過度に一般化され、実際よりも多くを代表していると主張された場合に発生する可能性があります。多くの場合、意図的または無意識のうちにサンプリングバイアスを見落としています。[54]棒グラフは、間違いなく最も使いやすく理解しやすい図であり、手作業または簡単なコンピュータープログラムで作成できます。[53]残念ながら、ほとんどの人は偏見や誤りを探していないので、気づかれていません。したがって、人々は、たとえそれがうまく表現されていなくても、何かが真実であると信じることがよくあります。[54]統計から収集されたデータを信頼できる正確なものにするために、採取されたサンプルは全体を代表するものでなければなりません。[55]ハフによれば、「サンプルの信頼性は[バイアス]によって破壊される可能性があります...ある程度の懐疑論を許してください。」[56]
統計の理解を助けるために、ハフはそれぞれの場合に尋ねられるべき一連の質問を提案しました:[51]
- 誰がそう言うのですか?(斧はありますか?)
- 彼/彼女はどうやって知っていますか?(彼/彼女は事実を知るためのリソースを持っていますか?)
- 何が欠けていますか?(彼/彼女は私たちに全体像を教えてくれますか?)
- 誰かが主題を変えましたか?(彼/彼女は私たちに間違った問題に対する正しい答えを提供しますか?)
- それは意味がありますか?(彼/彼女の結論は論理的であり、私たちがすでに知っていることと一致していますか?)
誤解:相関
相関の概念は、それが引き起こす可能性のある潜在的な混乱について特に注目に値します。データセットの統計分析では、検討中の母集団の2つの変数(プロパティ)が、接続されているかのように一緒に変化する傾向があることがよくわかります。たとえば、死亡年齢も調べた年収の調査では、貧しい人々は裕福な人々よりも寿命が短い傾向があることがわかります。2つの変数は相関していると言われています。ただし、それらは互いの原因である場合とそうでない場合があります。相関現象は、潜んでいる変数または交絡変数と呼ばれる、これまで考慮されていなかった3番目の現象によって引き起こされる可能性があります。このため、2つの変数間の因果関係の存在をすぐに推測する方法はありません。
アプリケーション
応用統計、理論統計、数理統計
応用統計は、記述統計と推論統計の適用で構成されます。[57] [58] 理論的統計は、数理統計を包含するだけでなく、統計的推論へのアプローチの正当化の根底にある論理的議論に関係している。数理統計には、推定と推論の方法に関連する結果を導き出すために必要な確率分布の操作だけでなく、計算統計と実験計画のさまざまな側面も含まれます。
統計コンサルタントは、特定の質問に関連する社内の専門知識を持たない組織や企業を支援できます。
機械学習とデータマイニング
機械学習モデルは、計算アルゴリズムを使用してデータのパターンをキャプチャする統計モデルと確率モデルです。
学界の統計
統計は、さまざまなに適用される学問分野を含め、自然や社会科学、政府、およびビジネス。ビジネス統計は、サービスの改善やマーケティング調査など、計量経済学、監査、生産および運用に統計的手法を適用します。[59]熱帯生物学の2つのジャーナルの研究では、12の最も頻繁な統計的検定は次のとおりであることがわかりました:分散分析(ANOVA)、カイ2乗検定、学生のT検定、線形回帰、ピアソンの相関係数、マンホイットニーU検定、Kruskal-Wallis検定、Shannonの多様性指数、Tukeyの検定、クラスター分析、Spearmanの順位相関検定、および主成分分析。[60]
典型的な統計コースは、記述統計、確率、二項分布と正規分布、仮説と信頼区間のテスト、線形回帰、および相関をカバーします。[61]学部生向けの最新の基本的な統計コースは、正しいテストの選択、結果の解釈、および無料の統計ソフトウェアの使用に焦点を当てています。[60]
統計計算
20世紀後半からの計算能力の急速かつ持続的な増加は、統計科学の実践に大きな影響を与えてきました。初期の統計モデルはほとんどの場合線形モデルのクラスのものでしたが、強力なコンピューターと適切な数値アルゴリズムを組み合わせることで、非線形モデル(ニューラルネットワークなど)への関心が高まり、一般化線形モデルなどの新しいタイプが作成されました。およびマルチレベルモデル。
計算能力の向上により、順列テストやブートストラップなどのリサンプリングに基づく計算集約型の方法の人気も高まり、ギブスサンプリングなどの手法によりベイズモデルの使用がより実現可能になりました。コンピュータ革命は、「実験的」および「経験的」統計に新たに重点を置いて、統計の将来に影響を及ぼします。現在、多数の汎用および特殊目的の統計ソフトウェアが利用可能です。複雑な統計計算が可能な利用可能なソフトウェアの例には、Mathematica、SAS、SPSS、Rなどのプログラムが含まれます。
事業統計
ビジネスでは、「統計」は広く使用されている管理および意思決定支援ツールです。特に、財務管理、マーケティング管理、生産、サービス、運用管理に適用されます。[62] [63]統計は、管理会計および監査でも頻繁に使用されます。経営科学の分野は、ビジネスにおける統計や他の数学の使用を形式化します。(計量経済学は、経済関係に経験的な内容を与えるために、経済データに統計的手法を適用することです。)
典型的な「ビジネス統計」コースは、ビジネスメジャーを対象としており、[64]記述統計(データの収集、説明、分析、および要約)、確率(通常、二項分布と正規分布)、仮説の検定、および信頼区間をカバーします。線形回帰、および相関; (後続の)コースには、予測、時系列、決定木、多重線形回帰、およびより一般的なビジネス分析からの他のトピックが含まれる場合があります。ビジネス数学§大学レベルも参照してください。CFAなどの専門的な認定プログラムでは、統計にトピックが含まれていることがよくあります。
数学または芸術に適用される統計
従来、統計は、ほとんどの科学で「必要な学習」であった半標準化された方法論を使用して推論を引き出すことに関係していました。[要出典]この伝統は、非推論的な文脈での統計の使用によって変化しました。かつては乾燥した主題と見なされていたものが、学位要件として多くの分野で取り上げられ、今では熱狂的に見られています。[誰によると?]当初は一部の数学の純粋主義者に嘲笑されていましたが、現在では特定の分野で不可欠な方法論と見なされています。
- で数論、散布分布関数によって生成されたデータのは、次いで、仮説につながる可能性があり、基礎となるパターンを明らかにするために統計で使用される使い慣れたツールを用いて形質転換することができます。
- で予測方法を含む統計の方法予測が組み合わされカオス理論とフラクタル幾何学の偉大な美しさを持っていると考えられている映像作品を作成します。[要出典]
- ジャクソンポロックのプロセスアートは芸術的な実験に依存しており、それによって自然界の根底にある分布が芸術的に明らかにされました。[要出典]コンピューターの出現により、統計的手法が適用され、動画アートを作成および分析するために、このような配信主導の自然なプロセスが形式化されました。[要出典]
- 統計の方法は、一部の時間しか機能しないマルコフ過程に基づくカードトリックのように、パフォーマンスアートで述語的に使用できます。その場合は、統計的方法論を使用して予測できます。
- 統計は、音楽がパフォーマンス固有であるIannis Xenakisによって発明された統計的または確率的音楽のように、予測的に芸術を作成するために使用できます。このタイプの芸術性は必ずしも期待どおりに得られるとは限りませんが、統計を使用して予測および調整可能な方法で動作します。
専門分野
統計技術は、生物統計学、計算生物学、計算社会学、ネットワーク生物学、社会科学、社会学、社会調査など、幅広い種類の科学的および社会的研究で使用されています。一部の調査分野では、適用された統計を非常に広範囲に使用しているため、専門用語が使用されています。これらの分野は次のとおりです。
- 保険数理(保険および金融業界のリスクを評価します)
- 応用情報経済学
- Astrostatistics(天文データの統計的評価)
- 生物統計学
- ケモメトリックス(化学からのデータの分析用)
- データマイニング(統計とパターン認識を適用してデータから知識を発見する)
- データサイエンス
- 人口統計(母集団の統計的研究)
- 計量経済学(経済データの統計分析)
- エネルギー統計
- エンジニアリング統計
- 疫学(病気の統計分析)
- 地理および地理情報システム、特に空間分析
- 画像処理
- ジュリメトリックス(法律)
- 医療統計
- 政治学
- 心理統計
- 信頼性工学
- 社会統計
- 統計力学
さらに、独自の専門用語と方法論を開発した特定のタイプの統計分析があります。
- ブートストラップ /ジャックナイフ リサンプリング
- 多変量統計
- 統計的分類
- 構造化データ分析
- 構造方程式モデリング
- 調査方法
- 生存分析
- さまざまなスポーツ、特に野球(セイバーメトリクスとして知られている)とクリケットの統計
統計は、ビジネスや製造においても重要な基礎ツールを形成します。これは、測定システムの変動性、制御プロセス(統計的プロセス制御またはSPCなど)を理解し、データを要約し、データ主導の意思決定を行うために使用されます。これらの役割において、それは重要なツールであり、おそらく唯一の信頼できるツールです。
も参照してください
- 存在量の推定
- 確率と統計の用語集
- 学術統計協会のリスト
- 統計における重要な出版物のリスト
- 国内および国際統計サービスのリスト
- 統計パッケージ(ソフトウェア)のリスト
- 統計記事のリスト
- 大学統計コンサルティングセンター一覧
- 確率と統計の表記
- 世界統計の日
- 基礎と統計の主要分野
- 統計の基礎
- 統計学者のリスト
- 公式統計
- 多変量分散分析
参考文献
- ^ 「オックスフォードリファレンス」。
- ^ Romijn、Jan-Willem(2014)。「統計の哲学」。スタンフォード哲学百科事典。
- ^ 「ケンブリッジ辞書」。
- ^ Dodge、Y。(2006)オックスフォード統計用語辞典、オックスフォード大学出版局。 ISBN 0-19-920613-9
- ^ a b Lund ResearchLtd。「記述統計および推論統計」。statistics.laerd.com 。2014年3月23日取得。
- ^ 「タイプIとタイプIIの仮説検定エラーの違いは何ですか?」。About.com教育。2015年11月27日取得。
- ^ Moses、Lincoln E.(1986)統計で考え、説明する、Addison-Wesley、 ISBN 978-0-201-15619-5。pp。1–3
- ^ Hays、William Lee、(1973) Statistics for the Social Sciences、Holt、Rinehart and Winston、p.xii、 ISBN 978-0-03-077945-9
- ^ ムーア、デビッド(1992)。「立派な主題として統計を教える」。F.ゴードン; S.ゴードン(編)。21世紀の統計。ワシントンDC:アメリカ数学協会。PP。 14-25。ISBN 978-0-88385-078-7。
- ^ チャンス、ベスL。; ロスマン、アランJ.(2005)。「はじめに」 (PDF)。統計的概念、アプリケーション、および方法の調査。ダックスベリープレス。ISBN 978-0-495-05064-3。
- ^ ラクシュミカンサム編 D. Kannan、V。(2002)による。確率論的分析と応用のハンドブック。ニューヨーク:M。デッカー。ISBN 0824706609。CS1 maint:追加テキスト:作成者リスト(リンク)
- ^ Schervish、Mark J.(1995)。統計理論(Corr。2ndprint。ed。)ニューヨーク:スプリンガー。ISBN 0387945466。
- ^ a b Broemeling、Lyle D.(2011年11月1日)。「アラブ暗号学における初期の統計的推論の説明」。アメリカの統計学者。65(4):255–257。土井:10.1198 /tas.2011.10191。
- ^ ウィルコックス、ウォルター(1938)「統計の創設者」。国際統計協会のレビュー5(4):321–328。JSTOR 1400906
- ^ J.フランクリン、推測の科学:パスカル以前の証拠と確率、ジョンズホプキンス大学Pr 2002
- ^ ヘレンメアリーウォーカー(1975)。統計的手法の歴史に関する研究。アルノプレス。ISBN 9780405066283。
- ^ ゴルトン、F(1877)。「遺伝の典型的な法則」。自然。15(388):492–553。Bibcode:1877Natur..15..492。。土井:10.1038 / 015492a0。
- ^ スティグラー、SM(1989)。「相関の発明に関するフランシス・ゴルトンの説明」。統計科学。4(2):73–79。土井:10.1214 / ss / 1177012580。
- ^ ピアソン、K。(1900年)。「相関変数システムの場合の可能性からの特定の偏差システムは、ランダムサンプリングから生じたと合理的に推測できるようなものであるという基準について」。フィロソフィカルマガジン。シリーズ5. 50(302):157から175まで。土井:10.1080 / 14786440009463897。
- ^ 「カール・ピアソン(1857–1936)」。統計科学科–ユニバーシティカレッジロンドン。2008年9月25日にオリジナルからアーカイブされました。
- ^ フィッシャー| 1971 | loc =第II章。心理物理学的実験によって示される実験の原理、セクション8。帰無仮説
- ^ OEDの引用: 1935 RAフィッシャー、実験計画法ii。19、「この仮説を「帰無仮説」と呼ぶことができます。帰無仮説は、実験の過程で証明または確立されることはありませんが、おそらく反証されます。」
- ^ ボックス、JF(1980年2月)。「RAフィッシャーと実験計画法、1922年から1926年」。アメリカの統計学者。34(1):1–7。土井:10.2307 / 2682986。JSTOR 2682986。
- ^ イェーツ、F(1964年6月)。「ロナルドフィッシャー卿と実験計画法」。バイオメトリクス。20(2):307–321。土井:10.2307 / 2528399。JSTOR 2528399。
- ^ スタンリー、ジュリアンC.(1966)。「30年後の教育研究に対するフィッシャーの「実験計画法」の影響」。アメリカの教育研究ジャーナル。3(3):223–229。土井:10.3102 / 00028312003003223。JSTOR 1161806。
- ^ アグレスティ、アラン; デビッドB.ヒッチコック(2005)。「カテゴリデータ分析のためのベイズ推定」 (PDF)。統計的手法と応用。14(3):298 DOI:10.1007 / s10260-005-0121-Y 。
- ^ エドワーズ、AWF(1998)。「自然淘汰と性比:フィッシャーの情報源」。アメリカンナチュラリスト。151(6):564–569。土井:10.1086 / 286141。PMID 18811377。
- ^ フィッシャー、RA(1915)性的嗜好の進化。優生学レビュー(7)184:192
- ^ フィッシャー、RA(1930)自然選択の遺伝理論。 ISBN 0-19-850440-3
- ^ エドワーズ、AWF(2000)展望:遺伝学に関する逸話的、歴史的および批評的解説。アメリカ遺伝学会(154)1419:1426
- ^ アンダーソン、マルタ(1994)。性淘汰。プリンストン大学出版局。ISBN 0-691-00057-3。
- ^ Andersson、M。and Simmons、LW(2006)性淘汰と配偶者選択。トレンド、エコロジー、エボリューション(21)296:302
- ^ Gayon、J。(2010)性淘汰:別のダーウィンのプロセス。Comptes Rendus Biologies(333)134:144
- ^ ネイマン、J(1934)。「代表的な方法の2つの異なる側面について:層化サンプリングの方法と目的選択の方法」。王立統計学会誌。97(4):557–625。土井:10.2307 / 2342192。JSTOR 2342192。
- ^ 「複雑な世界の科学–ビッグデータ:機会か脅威か?」。サンタフェインスティテュート。
- ^ Freedman、DA(2005)統計モデル:理論と実践、ケンブリッジ大学出版局。 ISBN 978-0-521-67105-7
- ^ マッカーニーR、ワーナーJ、イリフS、ヴァンハセレンR、グリフィンM、フィッシャーP(2007)。「ホーソン効果:ランダム化比較試験」。BMC Med ResMethodol。7(1):30 DOI:10.1186 / 1471-2288-7-30。PMC 1936999。PMID 17608932。
- ^ ロスマン、ケネスJ; グリーンランド、サンダー; ラッシュ、ティモシー、編。(2008)。"7"。現代疫学(第3版)。リッピンコットウィリアムズ&ウィルキンス。p。 100。
- ^ モステラー、F。; テューキー、JW(1977)。データ分析と回帰。ボストン:アディソン-ウェスリー。
- ^ ネルダー、JA(1990)。統計情報の分析と解釈をコンピュータ化するために必要な知識。ではデータに関する情報の必要性:エキスパート・システムや人工知能。図書館協会報告書、ロンドン、3月23〜27日。
- ^ クリスマン、ニコラスR(1998)。「地図作成の尺度の再考」。地図作成と地理情報科学。25(4):231–242。土井:10.1559 / 152304098872383043。
- ^ van den Berg、G。(1991)。分析方法の選択。ライデン:DSWOプレス
- ^ ハンド、DJ(2004)。測定理論と実践:定量化による世界。ロンドン:アーノルド。
- ^ Mann、Prem S.(1995)。入門統計(第2版)。ワイリー。ISBN 0-471-31009-3。
- ^ Upton、G.、Cook、I。(2008) Oxford Dictionary of Statistics、OUP。 ISBN 978-0-19-954145-4。
- ^ a b Piazza Elio、ProbabilitàeStatistica、Esculapio 2007
- ^ エベリット、ブライアン(1998)。ケンブリッジ統計辞典。ケンブリッジ、イギリスニューヨーク:ケンブリッジ大学出版局。ISBN 0521593468。
- ^ 「コーエン(1994)地球は丸い(p <.05)」。YourStatsGuru.com。
- ^ ルービン、ドナルドB。; リトル、ロデリックJA、欠測データを使用した統計分析、ニューヨーク:Wiley 2002
- ^ イオアニディス、JPA(2005)。「公開されているほとんどの調査結果が誤りである理由」。PLOSメディシン。2(8):e124。土井:10.1371 /journal.pmed.0020124。PMC 1182327。PMID 16060722。
- ^ a b c ハフ、ダレル(1954)統計でウソをつくる方法、WWノートンアンドカンパニー社ニューヨーク。 ISBN 0-393-31072-8
- ^ Warne、R。Lazo; ラモス、T。; リッター、N。(2012)。「GiftedEducationJournals、2006–2010で使用される統計的手法」。才能のある子供四半期。56(3):134–149。土井:10.1177 / 0016986212444122。
- ^ a b ドレンナン、ロバートD.(2008)。「考古学の統計」。ピアソールでは、Deborah M.(ed。)考古学百科事典。エルゼビア社頁。 2093 -2100。ISBN 978-0-12-373962-9。
- ^ a b コーエン、ジェロームB.(1938年12月)。「統計の誤用」。アメリカ統計協会誌。JSTOR。33(204):657–674。土井:10.1080 /01621459.1938.10502344。
- ^ フロイント、JE(1988)。「現代の初等統計」。クリードレファレンス。
- ^ ハフ、ダレル; アーヴィングガイス(1954年)。統計で嘘をつく方法。ニューヨーク:ノートン。
サンプルの信頼性は[バイアス]によって破壊される可能性があります...ある程度の懐疑論を自分に許してください。
- ^ Nikoletseas、MM(2014)「統計:概念と例」。 ISBN 978-1500815684
- ^ アンダーソン、DR; スウィーニー、DJ; Williams、TA(1994)統計入門:概念と応用、pp。5–9。ウエストグループ。 ISBN 978-0-314-03309-3
- ^ 「JournalofBusiness&EconomicStatistics」。Journal of Business&EconomicStatistics。テイラーアンドフランシス。2020年3月16日取得。
- ^ a b ナタリア・ロアイザ・ベラスケス、マリア・イザベル・ゴンザレス・ルッツ&ジュリアン・モンゲ・ナヘラ(2011)。「熱帯生物学者はどの統計を学ぶべきですか?」 (PDF)。RevistaBiologíaTropical。59:983〜992。
- ^ Pekoz、Erol(2009)。統計管理者ガイド。エロールペコズ。ISBN 9780979570438。
- ^ 「目的と範囲」。Journal of Business&EconomicStatistics。テイラーアンドフランシス。2020年3月16日取得。
- ^ 「JournalofBusiness&EconomicStatistics」。Journal of Business&EconomicStatistics。テイラーアンドフランシス。2020年3月16日取得。
- ^ ビジネスの世界における分野の範囲と範囲を反映して、多数のテキストが利用可能です。
- シャープ、N。(2014)。ビジネス統計、ピアソン。 ISBN 978-0134705217
- ウェグナー、T。(2010)。応用ビジネス統計:メソッドとExcelベースのアプリケーション、 JutaAcademic。 ISBN 0702172863
- ホームズ、L。、イロウスキー、B。、ディーン、S(2017)。入門的なビジネス統計
- ニカ、M。(2013)。ビジネス統計の原則
参考文献
- リディア・デンワース、「重大な問題:標準的な科学的方法が窮地に立たされています。何かが変わるでしょうか?」、Scientific American、vol。321、いいえ。4(2019年10月)、62〜67ページ。「の使用のp値[1925年以来]世紀近く決定するための統計的有意性の実験結果は、のような錯覚に貢献してきた確信して[へ]再現性の危機、多くの中の科学分野。改革統計分析に成長決意があり...一部の[研究者]は統計的手法の変更を提案していますが、他の[研究者]は「有意な」結果を定義するためのしきい値を廃止するでしょう。(p。63。)
- バーバラ・イロフスキー; スーザンディーン(2014)。入門統計。OpenStaxCNX。ISBN 9781938168208。
- Stockburger、David W. 「入門統計:概念、モデル、およびアプリケーション」。ミズーリ州立大学(第3回Web版)。2020年5月28日にオリジナルからアーカイブされました。
- OpenIntro Statistics Archived 2019-06-16 at the Wayback Machine、3rd edition by Diez、Barr、and Cetinkaya-Rundel
- スティーブンジョーンズ、2010年。心理学の統計:方程式のない説明。パルグレイブマクミラン。 ISBN 9781137282392。
- コーエン、J(1990)。「(これまでに)学んだこと」 (PDF)。アメリカの心理学者。45:1304〜1312。土井:10.1037 /0003-066x.45.12.1304。2017-10-18にオリジナル (PDF)からアーカイブされました。
- ギーゲレンツァー、G(2004)。「マインドレス統計」。社会経済学ジャーナル。33:587–606。土井:10.1016 /j.socec.2004.09.033。
- イオアニディス、JPA(2005)。「なぜほとんどの公表された研究結果が間違っているのか」。PLoSメディシン。2:696–701。土井:10.1371 /journal.pmed.0040168。PMC 1855693。PMID 17456002。
外部リンク
- (電子版):TIBCO Software Inc.(2020)。データサイエンスの教科書。
- オンライン統計教育:インタラクティブマルチメディア学習コース。ライス大学(主任開発者)、ヒューストン大学クリアレイク校、タフツ大学、および国立科学財団によって開発されました。
- UCLA統計計算リソース
- スタンフォード哲学百科事典からの統計学の哲学