• yuya-ito

【多変数を可視化】散布図の活用がデータ分析の第一歩

更新日:9月6日

製造業の品質管理でよく使われるQC7つ道具の1つ「散布図」ですが、

現在は品質管理のみならず、設計開発、生産技術、調達から財務・経理まで使える非常に便利なグラフの1つです。

JISでは「2つの特性を横軸と縦軸とし,観測値を打点して作るグラフ表示」と定義されていますが、本日は2つの特性だけではない、多変数でも活用できる散布図について紹介致します。



目次




散布図とは

散布図とは、以下のように2変数の関係性を表すグラフです。



上の例であれば、横軸が温度、縦軸が収量となっています。

青い点でデータ点で、右肩上がりの傾向が読み取れます。

つまり、温度が上がると収量が増える関係が散布図から読み取れます。


この結果が分かれば、収量をあげようと思った時に温度をあげようという意思決定になるわけですね。(実際には散布図は因果関係を示すわけではないので、そこまで単純には判断できないですが)




多変数が苦手な散布図

さて、先程の例で収量に関係する変数が「温度」の他に「時間」があったとします。

時間と収量の関係を調べたい時はその場合はもう一つ散布図を作る必要があります。


結果を見ると、次はプロット点が右肩下がり。つまり時間が長くなると収量が減る関係性が見て取れます。

このように変数が2個程度であれば、それぞれ散布図を作って比較できます。


ただ皆様の業務において考えてみると、何かしらの製品を作ろうとした時に結果に影響を与えている変数が2、3個ということはあまり無いかと思います。

工程や扱う素材によっては10個以上の変数を扱うこともあるでしょうし、もしかしたら30,50個を超えることもあるかもしれません。

そのような時に1つずつ散布図を作って行くのは大変なので、一度に複数の関係性を比較できるように作られたのが「行列散布図」です。




行列散布図

行列散布図は複数の変数間の関係性を1つのグラフに合わせたものになります。

こちらが例です


複数の散布図を1つにまとめていますね。

行列散布図を作ることで、1つ1つグラフを作る手間がなくなりますし、

もう1つ大きなメリットとしてX同士の散布図も見ることができます。


通常皆様が知りたいことは、結果(Y)にどのような変数(X)が効果があるのかだと思います。ただデータ分析する際には、X同士の関係性も重要です。


例えば、散布図を作った後に回帰分析を行うとします。

その時にX同士の関係性が強いと、多重共線性という問題が発生します。

つまり、X同士がYに同じような影響を与えており、回帰式を作る途中で符号が反転してしまうとういことが起こるのです。

今回の例であれば、温度は収量に正の関係がありました。

同様に投入量も収量に正の関係があります。

そこで温度と投入量の関係を見てみるとある程度の正の関係性が見て取れます。

この状態で分析して回帰式を作ると、温度の前にマイナスの係数がついてしまうことがあります。それが多重共線性です。

この結果を理解せずに取り入れてしまい、温度を下げると収量が増えると勘違いしてしまうと思ったような結果が得られない場合がありますよね。

(ただ今回の温度と収量の関係性はそこまで強くないので、実際に多重共線性が起きるかどうかまではグラフ上では判断できません。)


そのため予め散布図を使ってX同士の関係性も見ることが非常に大切です。

行列散布図ではXとYだけでなく、X同士の関係性も見れる点から、多変量解析においては非常に重宝されています。



層別

カテゴリ変数を含む場合は層別を使います。

例えば次のような収量と温度の散布図があったとします。

先ほどと同じように、温度があがると収量が増えるような関係が見て取れますね。

実はこのデータは機械の種類というデータもあります。

通常は、機械1、機械2のように分けて行列散布図を作る方法が取られるかと思います。



ただ機械のようなカテゴリ因子の場合は、色分けしたほうが分析には使いやすいです。


上の例であれば、赤いプロットの機械2の収量が多いのが確認できます。

このように散布図中で色分けすることを層別と呼んだりもします。


先程の行列散布図とこの層別をうまく使いこなして、多変数の関係性をグラフから読み取っていくことが、皆様の業務の効率、製品の品質向上に大きく役立ちます。




大量の変数は工夫が必要

多変数において有効な行列散布図ですが、変数の数が20程度を超えてくると工夫が必要です。

例えば次のような行列散布図の結果がでてきたとします。どのように判断しますか?



これは変数17個で、それぞれデータ量としては50以上のデータがプロットされています。

ここから関係性を読み取るのは難しいでしょう。 ましてや1個1個散布図を作るのは現実的ではありません。

このような場合には散布図に似た他のグラフを使うことをオススメします。

非常に有効なのがコレログラムです。

色の濃淡を使って関係性の共逆を表してくれます。


行列散布図では読み取れなかった関係性が一目で読み取れるようになりました。

この例であれば工程因子2と10の部分が濃い赤で記されているので、多重共線性の可能性が高そうです。


このコレログラムは具体的な相関係数を表示することもできます。


ここまで来たら更に強力でしょう。

工程因子2と10は相関係数0.95と非常に強い相関なので、分析するときにはどちらか1つの変数で十分かもしれないと判断できます。





多変数でも活躍する散布図

さていかがでしたでしょうか。

行列散布図まで使いこなしていても、層別やコレログラムなど初めて知った方も多いかと思います。

重要なのはグラフから何を読み取って皆様の業務や製品に生かしていくかとなります。

ただその前段階のグラフを作る点において、多方面からデータをグラフ化していく必要があります。

今回ご紹介したグラフは全て統計解析ソフトMinitabを使って作図しました。

どのグラフも数クリックで作図でき、編集も非常に簡単です。

非常に便利で強力なツールですので、是非お試しください。

Minitab製品について見る




99回の閲覧0件のコメント