• yuya-ito

予測分析:CART(決定木)とは?



Minitab 19.3から搭載された新機能 CART(決定木)について紹介します。

CARTとは


CARTとは特徴量の値に対して条件を「YesかNo」の条件によって予測を行う機械学習です。(※統計に分類されるという意見もあります。)


日本では「決定木」という言葉のほうが浸透しているかと思いますが、決定木の中で使われているアルゴリズムが複数あり、その中で「CARTアルゴリズム」が一般的に使われております。(そのため、本記事のタイトルはCART(決定木)としています。)

Minitab 19.3ではそのCARTアルゴリズムが使われているのですね。

結果としては、下図のような枝分かれで結果が表示されるので、学習結果の理解・解釈しやすいのが特徴です。

▼決定木の結果


CARTでできること


CARTは2分類で結果を分けていきます。

その結果をもとに、ある特徴量が与えられた時にそれがどこに分類されるのかを判断することができます。


わかり易い例で紹介すると、クレジットカード会社でこの人に貸し出しをするかどうかの判断は、滞りなく返済できるかが重要です。過去の性別や年齢・収入といったデータをもとにCART分析しておくことで、次に申請したきた人に貸し出しするか否かを統計的に判断することができます。

もちろんこの手法はサービス業に関わらず、製造業にも適応できます。

因みにCARTは大きく2種類あります。

応答のデータタイプによって使い分けます。

  • 分類木(CART® Classification)

–何らかの基準に基づいて分類する

–応答は2値、または多項

  • 回帰木(CART® Regression)

–「良い」「悪い」のような分類ではなく、過去のデータから未来を予測する

–応答は連続量


CARTのメリットとデメリット


一番のメリットは、結果の理解・解釈のしやすさです。

機械学習でよくある何故このような結果になったのかわからないというブラックボックス化しないメリットがあります。もちろん精度は良いです。

ビックデータにも対応できる点もあります。

数百というデータだけでなく、数千から数万までのデータ処理に適しています。

また、先程の2種類のタイプのように、数値データとカテゴリデータどちらにも対応しています。

製造業では合格、不合格と判断するシーンも多くあるので、カテゴリデータにも適応できるのは強みです。

デメリットも紹介しておくと、

条件分岐が複雑になりやすいことがあげられます。

例えばデータ数200ぐらいで下図のような結果になったとします。




たかだか200程度のデータでこんなにも分岐してしまっては、結果が複雑です。

このような結果のことを過学習と呼びます。

(機械学習では過学習を起こさないための工夫が様々あります。)

またふさわしいツリー(上図)を算出するのが難しい点があげられます。

もちろんMinitabはどこまで分類するのが最適なのかを精度良く計算してくれますが、じゃあそれが実務に活かす上で最適なのかは難しい問題です。(これはMinitab製品の問題ではなく、手法自体の限界、又は発展途中といえます。)


ただそれらデメリットを上回るほどの結果を得れるのがCARTになります。

今回はCART入門編として概要を紹介しました。


Minitabヘルプページに分析例がありますので、参考にしてみてください。

CART分類の例 (Minitabサポートページ)

例題は、心臓病に影響を与える要因に関するデータの分類になります。


最新版のMinitabを使うことでCARTをより簡単に、便利に分析できるのでぜひご検討ください。↓CART機能を試してみる

Minitab製品について見る

19回の閲覧0件のコメント