今回は、統計学の「中心」となる中心極限定理を紹介します。
母集団から何回もサンプルを抽出したとき、サンプルの平均(標本平均)は分布します。
標本平均の分布を、標本分布と呼びます。
標本平均はXにバーを付けた記号で表します。Xbarとも書きます。
サンプルサイズがある程度大きければ、
母集団が正規分布の形をしていなくても、標本分布は正規分布の形になります。
これを中心極限定理といいます。
中心極限定理により、母集団の分布がどんな形でも、
サンプルの平均をとった標本分布について正規分布の特徴を活用することができます。
1つ例を見てみましょう
正規分布に従わないサンプルデータを用意します。
今回はワイブル分布から抽出した標本サイズ100のデータを100個用意しました。
1つの標本のヒストグラムを書いてみると(赤列)
正規分布に従っていない様子が見て取れます。
100個の標本からそれぞれ平均を計算します。
上の値はワイブルに従う標本から計算された、平均となります。
果たしてこの平均が正規分布となるのか。。。
標本平均のヒストグラムを書いてみると
いかがでしょうか。正規分布に従っていると言えるグラフかと思います。
試しに、正規性検定を行ってみます。
右側に表示されているP値が0.05を超えているので、標本平均の分布は正規性を満たしています。確率プロットを見ても正規性がありますね。
いかがでしょうか。
ワイブルに従う標本の平均は正規分布に従うことがわかりました。
これが中心極限定理と呼ばれるものです。
この定理は製品の安定性を評価する管理図に活用されています。
製品データがどんな値を取ろうが、その平均は正規分布に従います。
正規分布に従うと、どれくらいのばらつきになるか予想できるので、
異常検知に役立てることができるのです。
[統計小話]
中心極限定理の「中心」には、次のような意味が込められています。
・統計学において最も重要
・中心的となる
込められた意味の通り、非常に多くの場面で使われます。
[K. Nagai]
Comments