データの種類によって、使える分析手法が異なり、分析に工夫が必要になることは少なくありません。
データを収集して分析するときに、データの種類を区別できることは必須の知識です。
前回は、チョコレートの好み(ダーク、ミルク、ホワイト)のアンケート結果をグラフ化しました。ダーク、ミルク、ホワイトのようなデータは、定性的なカテゴリーデータと呼ばれます。では、数字であれば定量的なデータと言えるのでしょうか。
今回はデータの種類について深掘りします。
名義尺度
ダークを1、ミルクを2、ホワイトを3のように一対一対応で番号をふります。チョコレートの種類の名称が番号に置き換わっただけなので、「1,2,3」自体の平均値2を計算することに意味はありません。
名称を数字に置き換えることをコード化と言い、コード化されたデータは名義尺度に当てはまります。名義尺度とは、名称が意味を持つ尺度という意味です。
順序尺度
「あてはまる」を5,「ややあてはまる」を4,「どちらともいえない」を3、「ややあてはまらない」を2、「あてはまらない」を1としたアンケートをよく見かけます。
このとき、あてはまり度合いとしては1が最低で5が最高です。1から5には順位がありますが、5と4であてはまり具合がどれくらい違うのかはわかりません。また、「ややあてはまる」は4だから、「ややあてはまらない」2の2倍という数値計算にも意味がありません。
このように、順位はあるものの定性的な域を脱しないデータは順序尺度にあてはまります。
間隔尺度
時刻は、0時から24時まで1時間間隔で刻まれます。24時が12時の2倍、という数値計算に意味はありませんが、間隔をとって、4時間は2時間の2倍、という計算には意味があります。
このように、0が決まっていて、間隔の比率に意味があるデータは間隔尺度にあてはまります。温度も間隔尺度です。
比率尺度
比率尺度では、その名の通り、2つの値の比を計算することができます。例えば、100円は50円の2倍です。また、0は何もないを意味します。金額だけでなく、重さ、長さなど比率尺度にあてはまります。
参考書籍
ビジネス統計学上 COMPLETE BUSINESS STATISTICS ダイヤモンド社
Comments