先日の多変量解析紹介の分類として「クラスター分析」を紹介しました。
今回はそのクラスター分析について、もう少し詳しくご紹介致します。
クラスター分析とは
クラスター分析とはサンプル同士を複数のグループ(クラスター)に分ける方法の総称です。似た特性を持つ変数やサンプル同士をグループにしてくれるので、多変量データを扱う時によく使われます。
例えば製品開発において想定ユーザーを定義したい場合があります。様々なパターンで製造した製品を、
「ハイエンド」
「ミドルレンジ」
「ローエンド」
の3つに分類したいとします。クラスター分析を使うことで、各種製品の見た目や質感、特性などの情報を元に3グループに分けることが可能です。
同じグループに属したサンプルは類似度が高いので、ユーザーのニーズに合っていると考えることができます。
クラスター分析は大きく2種類ある
階層クラスタリングと非階層クラスタリングの2種類が体表的な分析方法です。
階層クラスタリング
階層クラスタリング最も似ている(分散が少ない)サンプル同士をグループにして行きます。同じグループにされたものは、また大きなグループに属します。最終的に全てのデータがグループ化されるまで繰り返されるので、最終的には1つのグループになります。
画像のように、大きいグループが小さいグループを包含しています。
このようにグループごとに階層が存在しているのが特徴です。
結果としては樹形図(デンドログラム)として表示されます。
非階層クラスタリング
対して非階層クラスタリングは一気に階層を行います。
データに対してランダムにクラスタリングを行い、そこから近いクラスタが生成されます。生成されたクラスタの中心を計算して再度クラスタの作成 > 中心の計算 > クラスタの作成 > 中心の計算・・・と何度も計算を行い、ある一定に収束したら計算が止まります。
階層クラスタリングと非階層クラスタリングの使い分け
サンプル数による使い分け
サンプルサイズが100以下などの比較的小さい場合には階層クラスタリングが使われ、それ以上のデータサイズは非階層クラスタリングが使われる場合が多いです。
理由としてはデータ数が100を超えると樹形図による確認が難しくなるためです。また階層クラスタリングは計算が重たいという理由もあります。
クラスター数決め
予めクラスター数を決める場合は非階層クラスタリングが良いです。
クラスター数を後から決める場合は階層クラスタリングが向いてます。
冒頭の例のようにユーザーを3つに分類したいと決めている場合は、非階層クラスタリングを使うこともできます。(ただし上の例題ではデータ数が少ないので階層クラスタリングの結果)
階層クラスタリングは樹形図を確認してデータのまとまりを確認してから分類していくことができます。
両方の分析を試す
階層クラスタリングと非階層クラスタリングをどっちも行うこともおすすめします。
どちらも同じクラスタに分かれた場合はより結果の信頼性が増しますし、どちらかが異なる場合は判断に差があると考えることができます。
2つの分析を照らし合わせて総合的に判断していくことが望ましいです。
クラスタリングを試してみる
統計解析ソフトMinitabではクラスタリングを簡単に行うことができます。
非常に便利で強力なツールですので、是非お試しください。
Comments