Random forest : Use of out-of-bag data
Random forest : Use of out-of-bag data
Generalization error を推定するout-of-bag 推定という巧妙な方法がある。
Generalization errorは
]
で定義される。ただし はトレーニングセット
Random Forest は、Bagging (Bootstrap aggregation)とtreeのsplit 時に予測変数のランダムな選択を組み合わせたもの。その過程で以下のようにout-of-bag 推定が行える。
classication に用いた場合のRandom Forestは
トレーニングセットからの 個のブートストラップ標本
に基づく。 を固定する。
が属さないブートストラップ標本一つ一つから classfication tree を作る。
このclassfication tree による予測 を用いてvote するのが、のout-of-bag
予測 である。これを用いて計算したloss を について平均したのがGeneralization error rate のout-of-bag 推定である。
Variable importance の推定
Out-of-bag推定を用いてvariable importanceの推定が行える。(Permutation variable importance)
See
Cutler, Cutler and Stevens.
Breiman (2001), p23.
Hastie, Tibshirani and Freidman, p593.