アンケートから睡眠時間の平均値を推測する
Oさんはある寝具メーカーの商品開発部門に勤務しています。
昨今のコロナ禍による生活様式の変化にともない、睡眠の環境も変化していることが予想されています。そのため、Oさんが勤める会社では、現代人の生活にマッチした枕の新商品開発を進めているところです。
そこで、日本人の平均睡眠時間の最新データをリサーチすることになり、広くアンケートを実施することにしました。
対象は、メインユーザーである30代から50代の男女で、アンケート調査の結果、ちょうど900件のデータを得ることができました。
得られた900件の睡眠時間のデータについて、その平均値と標準偏差(標準偏差は本書内で詳しく説明しています)を計算したところ、平均睡眠時間は412分(6時間52分)、標準偏差は45.50分という結果が得られました。
このデータから、同年代の日本人「全体」の睡眠時間の平均値は何分と推定されるでしょうか?(なお、これらの数値は架空のものです)
得られた睡眠時間のサンプルの数(900件)は、日本中に住む30代から50代の人数に比べれば極端に少ないといえるでしょう。こんなに少ないサンプルで本当にすべての30代から50代の人の睡眠時間が推測できるのでしょうか?
実は、統計学の理論を使えば、かなり正確に全体の睡眠時間を推測(正確には、統計学では「推定」といいます)することができるのです。
私たちがよく知るところでは、テレビの視聴率調査があります。
2022年現在、日本全国には約5600万世帯がありますが、実際に調査されているのは約1万世帯です。この割合は、全世帯のたった0.02%です。ところが統計学の理論では、このサンプルだけで十分信頼できる結果が得られるとされています。
■結論を「推論」する
睡眠時間の分析に戻りましょう。900件のサンプルの平均が6時間52分(412分)だったということは、調べたい日本全体の平均睡眠時間もおそらくこれに近い値になるだろう、と考えるのが自然でしょう。
とはいえ、さすがにこのデータから「全体の平均は6時間52分(412分)である」と断定するのには無理があります。
そこでどう考えるかというと、「おそらくここからここの間にあるでしょう」という、幅を持たせた結論の出し方をするのです。統計学で「区間推定」と呼ばれる考え方です。
ここで次の2つの疑問にぶつかります。
【疑問1】「ここからここの間」の数字はどうやって出すのか?
【疑問2】あいまいな「おそらく」という表現を数値化できないか?