top of page
  • shin-mikami

【判断ミスを防ぐ】検定に必要なサンプルサイズの求め方


今回は、検定におけるサンプルサイズの重要性と求め方についてご紹介します。

サンプルサイズは調査のために使うデータの個数のことで、検定を行う上で非常に重要な役割を持ちます。


こんな方におすすめ

・サンプルサイズの決め方がわからない方

・統計の基本を知りたい方


この記事の目次

 1-1. 2サンプルt検定における例題

 1-2. 例題の回答と解説

 1-3. Minitabを用いたサンプルサイズの求め方







1. サンプルサイズの重要性と求め方


サンプルサイズは調査のために使うデータの個数のことで、検定を行う上で非常に重要な要素のひとつです。にもかかわらず、サンプルサイズを経験や勘で決めているというお話もよくお聞きします。


サンプルサイズにも適切な設計方法があり、サンプルサイズの設計を誤ると統計的な判断ミスが起こり得ます。この記事ではサンプルサイズの重要性や、統計ソフトMinitabでの求め方を、例題を使って紹介していきます。




1-1. 2サンプルt検定における例題

例題:以下の事例において統計的な判断ミスにつながる間違いがあります。それはどこでしょうか?


事例

自転車メーカーは部品のサプライヤーを選定している。製品のコストを抑えるために、強度が同じであれば、現在採用しているサプライヤーAよりコストが低いサプライヤーBを新しく採用するか検討している。


それぞれのサプライヤーが納める部品の強度は、同程度のばらつき(標準偏差=1)だと想定した。サプライヤーAの部品がサプライヤーBの部品より、強度が1N/㎟以上高ければ、サプライヤーAを継続して採用し、そうでなければサプライヤーBを採用することにした。


それぞれのサプライヤーの部品を無作為に8個ずつ抽出して強度を測定した。データは以下の表のようになった。

サプライヤーA(N/㎟)

サプライヤーB(N/㎟)

111.116


110.270


111.604


110.50

109.398


109.014


110.564


109.859


112.041


111.011


110.686


110.116


109.969


108.675


109.921


110.418


※実際に意味のある差が出るのか試したい方は、ExcelやMinitabなどのソフトを使って、2サンプルt検定をしてみてください。


それぞれのサプライヤーが提供する部品の強度(N/㎟)において、どちらの強度が高いかを調べるために、2サンプルt検定をした結果、意味のある差がでなかったためコストが低いサプライヤーBを採用した。



1-2. 例題の回答

解答:サンプルサイズが足りていないことに気づいていない


解説:

検定では、実際は意味のある差が存在していたとしても、「差がない」という結果になってしまうことがあります。


そのような誤りをできる限り防ぐために用いられている指標を検出力※1といいます。この検出力を向上させるために、サンプルサイズが不可欠となってきます。


今回の検定ではサンプルサイズが足りないため検出力が約60%でした。つまり、約40%の確率で意味のある差を見逃しているということになります。


サンプルサイズが足りないことに気づかず、検出力が低い検定結果をもとに判断するということは、本当はサプライヤーAの方が丈夫な部品なのに「サプライヤーBと差がない」と誤った判断をする可能性があるということです。


もし例題の判断が誤っていて、サプライヤーAの部品の方が高い強度を持っている場合は、サプライヤーBの部品を使用することで起こる故障などで、損失が生まれてしまうかもしれません。


このようにサンプルサイズが足りないことで統計的な判断ミスにつながり、損失を生む可能性があることをご理解いただけたと思います。


※1 検出力は、想定する2サンプルの平均の差、標準偏差、サンプルサイズによって変動します。




1-3. Minitabを用いたサンプルサイズの求め方

通常、検出力は80%~95%ほどあればよいといわれています。

今回は検出力80%だった場合のサンプルサイズを統計ソフトMinitabで、実際に求めていこうと思います。


※Minitab 30日間無料トライアル


① Minitabを開いたら[統計]メニューから[検出力とサンプルサイズ]を開いて、行う検定の種類を選択します。今回の場合は[2サンプルt]を選びます。





② [2サンプルtの検出力とサンプルサイズ]というタブが表示されるので、求めたい項目([サンプルサイズ])以外の項目、[差]※2 [標準偏差]※3 [検出力]に値を入れると必要なサンプルサイズが求まります。

今回のデータでは[差]=1, [標準偏差]=1, [検出力]=0.8を入力します。






※2 [差]:高い確率で検出したい2サンプルの平均の差

※3 [標準偏差]:想定する標準偏差


③ [オプション]から対立仮説に[仮説値より大きい]を選択します。



④ 以下の図のように、この条件では、80%の検出力を出すために必要なサンプルサイズは14だということがわかりました。







2. 信頼できる統計ソフトの重要性

サンプルサイズの重要性についてご存じでしたでしょうか。私自身は大学で研究をしていたとき、サンプルサイズを感覚で決めていました。その重要性を論文提出後に知り、ひどく後悔したことを覚えています。


当時、悔しさのあまり、私の研究に必要だったサンプルサイズを実際にExcelで計算しようと試みましたが、検定の種類によって数式が違う、近似が必要など、複雑で専門的な要素が出てきて当時は泣く泣くあきらめることになりました。


そのため統計を実務で使うなら、統計専門のソフトウェアを使う方が結果的に時間とコストが少なくすむと私は考えています。


ビジネスや研究で統計分析を行うならば、統計が複雑で専門的だからこそ、統計ソフトは国際的な信用があり、学術的にも保証されているものを選んでいただけたらと思います。




3. まとめ

今回はサンプルサイズの重要性と統計ソフトMinitabでの求め方について、ご紹介しました。サンプルサイズや検出力という視点がないと統計的な判断ミスにつながり、損失を生む可能性があることをお判りいただけたかと思います。


しかしそれは、品質管理に正しく統計を使うことで、信用や品質の向上につながるということでもあります。また、お客様から信用を得るための統計のツールには、信頼のあるものをぜひ選んでいただけたら幸いです。




▼Minitab 30日間無料トライアル






閲覧数:1,797回0件のコメント

Comentários


bottom of page