K. NAGAI
大人からはじめる統計vol.2 バラツキあるところに正規分布あり
更新日:2021年4月13日
vol.1 は、サンプルから全数について推測するというお話でした。
さっそく推測する方法を・・・!と行きたいところですが、その前に必要な知識を消化していきましょう。
目次
ヒストグラム
横軸に観測値、縦軸にその度数をとったグラフです。棒の高さは、各観測値が何回観測されたかを表します。
どの観測値が多く観測されているか、データはどれくらいの広がりをもっているか、
山は一つなのか、二つなのか、左右対称か・・・データの特長を知るときに使います。
ここで長さ5cmのネジの製造を考えます。
製造されたネジの長さが全てぴったり5cmなら、ヒストグラムは下図のようになります。

5cmのところに棒が立っているだけです。10本長さを測ったとして度数は10になっています。
全てぴったり5cmという状況は現実に起こり得るでしょうか?
ネジの長さを測る目盛りがcmまでしかないとしたら、全て"5cm"になるかもしれません。
しかし、cmより細かい目盛りで測ると、5cmぴったりではなくなるでしょう。

このヒストグラムでは、50本のネジが50±0.2cmの範囲でばらついています。
バラツキの原因は、原材料の性質、機械の使用年数、気温・・・はたまた測定の誤差も含みます。
正規分布
様々なバラツキを含むとき、その観測値の分布(下図赤線)を描くと正規分布になることがほとんどです。

赤線の形、見覚えがありませんか?平均を中心とした左右対称なベル型、これが正規分布の形です。
平均値の周辺にデータが集まるのが特徴です。
この正規分布、実は非常に便利でして、手元のデータが正規分布に従う時は様々な統計手法を適応できるということが知られています。
これから先、正規分布の便利さをもっと体感していくことになります!
[お知らせ]
測定システムのバラツキを調べる手法 MSAについて相談してみませんか?
品質管理/設計で統計を活用したい。
[統計小話] 初雪はいつ降る?平年とは
あらゆるデータは正規分布に従うというお話でしたが、実際の観測データを使ってヒストグラムを描いてみましょう。
いよいよ冬、といった寒さになってきました。初雪はいつ頃降るでしょうか?
東京で初雪が降った月日(1981年-2010年)のヒストグラムを描いてみると、
平均を中心に左右対称なベル型です。これは正規分布の特長に当てはまりますね!
12月末~1月初めに初雪が降る年が多いようです。

※気象庁調べ
平年とは
初雪が降った月日の、1981年-2010年の平均は1月3日です。
「平年より~」とよくニュースで耳にするのはこの日付を基準にしています。
1980年以前に生まれた方は「大体これくらいに初雪が降るなあ」という感覚と合っているでしょうか?
平年値は、10年ごとに、西暦XXX1年から30年間の期間で計算しています。
2011年から、1981年-2010年で計算した平年値を使っていました。
2021年から、2011年-2020年で計算した平年値に変わります。
参照:
1. 東京の初雪、終雪(気象庁)
https://www.jma-net.go.jp/tokyo/sub_index/kiroku/kiroku/data/53.htm
2. 2010 年平年値の作成方法について(気象庁)
https://www.jma.go.jp/jma/kishou/books/sokkou/78/vol78p043.pdf
[K. NAGAI]