- yuya-ito
【既存の予測手法を超える】予測分析Tree Netとは?
更新日:2022年3月16日
以前、強力な予測ツールとしてランダムフォレストを紹介しました。
ランダムフォレストはCART(決定木)をベースとした発展的な予測ツールでしたね。
Tree NetもCARTをベースとしつつも、予測手法を変えることで強力なツールとして使われています。
Tree Netとは
ランダムフォレストと同様に予測ツールの1つです。
最新の機械学習手法の1つで、勾配ブースティングを使った手法です。
ランダムフォレストと同様に分類・予測に使うことができ、結果に影響を及ぼしている因子の絞り込みにも活用できます。
特に多変量で効果を発揮する手法で、従来の回帰分析では思ったような結果がでないときに使えます。
勾配ブースティングとは
Tree Netで使われている手法が勾配ブースティングです。
まず、CARTを使い1回目の予測を行います。
そこから実測と予測結果の差をとり、誤差(残差)を算出します。
(実測は訓練データと正解データを使います)
次に誤差を正解データとして、2回めのCARTを作成し同じように誤差を計算します。
この手順を何度も繰り返すのが勾配ブースティングになります。
つまり、誤差を計算して修正 → その結果を元にモデルを作成 → 誤差を計算して修正・・・
この作業を繰り返すわけです。
1つ前の欠点を補って、精度の良いモデルを作り続ける作業を行うのですね。
(CARTは、上の1回目の分析で止めています)
いかがでしょうか、Tree Netが強力な予測ツールと呼ばれる理由がわかってきましたでしょうか。
ランダムフォレストとの違い
ここまで読む疑問に思うのが、「Tree Netとランダムフォレスト違いは何?」
ランダムフォレストは以前に紹介した通り、
CARTを複数作り、そこから精度の良いモデルを作ろうという考えの手法です。
CARTの分岐をある程度のところで区切り、次の計算を行います。1つ1つの精度が悪くても、複数合わせて良いところ取りすれば、精度が良くなる考え方ですね。

対してTree Netとは1つの決定木を作り、誤差を計算 → 修正 → 改善のサイクルを回して行くようなイメージです

改善で例えると、
CART:1つの改善案を実行する
ランダムフォレスト:複数の改善案を実行する
Tree Net:1つの改善案のPDCAを回す
といったイメージでしょうか。(逆にわかりにくいでしょうか?笑)
Tree Netの例
実際に例を見てみましょう
ある射出成形プロセスのデータを使ってみます。
対象データはプラスチック部品の加工プロセスに関わるデータで、最終品質特性の強度に寄与するであろうデータが集められています。

データ数はn = 1408、変数は21変数に最終特性の強さがあります。

目的としては、強さに影響を与えている項目を絞りたい。そのためのデータ分析となります。
項目を絞ることで、強さを最大化できるかもしれませんし、ばらつき影響の特定に寄与できるかもしれません。または影響の少ない変数は削除できるかもしれません。
従来の手法適用
1000弱のデータなので、まずは既存の古典的な手法使ってみましょう
関係性を見るのによく使われる散布図を出力してみます

いかがでしょうか。読み取るには難しいですね
データ数が1408とはいえ、グラフ化してしまうと傾向を読み取るのは難しいです。
次に回帰分析を当てはめてみましょう
変数選択法はステップワイズ法を使い、有意水準は0.15としています。

結果上部に回帰式が表示されていますが、変数の数は8個まで絞られました。
シンプルな数式に落とし込めているので一見良さそうに見えますが、
R二乗値(予測)は59.84%です。
決して低くない数値ですが、この結果だけを信じて意思決定に移るには若干低い値です。
Tree Netの適用
統計解析ソフトMinitabを使ってTree Netを行なってみます。
まずは20のモデルを比較しました。

それぞれに対してR二乗が計算されており、モデル番号16の時が最大になっています。
この時のモデルをもう少し詳しく見てみると

このモデルには特に重要な変数が5つ選ばれています。それが下に表示されている「相対的変数重要度」です。
今回の結果では、強さに影響を与えている変数の中、最も影響度が高いのが「金型温度」といえます。次に「機械(種類)」と続きます。
R二乗の値が90%を超えており、回帰分析と比べると非常に優秀な結果になっています。
一番影響度の高い金型温度と強さの関係を見てみましょう

金型温度が高くなると強さも比例して高くなっています。
ただある一定のところで強さは上限に達しています。
このモデルの結果を使い、予測することもできます。
特に有効な5つの変数を調整し、精度90%で予測を行えます。
従来の手法で結果が出ないならTree Net
いかがでしょうか。回帰分析も非常に有効なツールです。
ただ変数が多い場合や、応答への影響が低い場合に思ったような結果にならないことがあります。
そのようなデータに対してもTree Netは繰り返し誤差を修正していくことで予測の精度を上げてモデルを作り込んでいきます。
多変量データを扱う場合には非常に有効なツールだということをおわかりいただけたかと思います。
統計解析ソフトのアドイン機能としてTree Netを使うことできます。
Tree Netを使うには
ランダムフォレスト機能はMinitab 20から搭載された新機能のアドインです。
通常のMinitabにアドインとして追加することでご利用いただけます。
別途ご購入する必要がありますので、お見積りご依頼される場合はこちらからお申し込みください。
▼Minitab 見積依頼フォーム
https://www.minitab-kke.com/quotationform
※コメント欄に ランダムフォレスト機能を追加とご記入ください。
▼予測の精度を上げるためには、データの処理も重要です。
無料のホワイトペーパー
「特徴量エンジニアリング:予測分析と機械学習モデルを向上させる7つのテクニック」
今すぐダウンロード:https://hubs.ly/H0Sf9h90