Random forest : Use of out-of-bag data

Generalization error を推定するout-of-bag 推定という巧妙な方法がある。

Generalization errorは
$Err_{{\cal D}}:=E[L(Y, \hat{f}(X)|{\cal D}$ ]
で定義される。ただし ${\cal D}$ はトレーニングセット

Random Forest は、Bagging (Bootstrap aggregation)とtreeのsplit 時に予測変数のランダムな選択を組み合わせたもの。その過程で以下のようにout-of-bag 推定が行える。

classication に用いた場合のRandom Forestは
トレーニングセットからの $J$ 個のブートストラップ標本 ${\cal D}_j,\ \ j=1,\ldots s, J$
に基づく。 $(x_i, y_i)\in{\cal D}$ を固定する。
$(x_i, y_i)$ が属さないブートストラップ標本一つ一つから classfication tree を作る。
このclassfication tree による予測　 $\hat{h}_j(x_i)$ 　を用いてvote するのが、 $y_i$ のout-of-bag
予測 $\hat{f}_{{\rm oob}}(x_i)$ である。これを用いて計算したloss を $i=1,\ldots,N$ について平均したのがGeneralization error rate のout-of-bag 推定である。

Variable importance の推定
Out-of-bag推定を用いてvariable importanceの推定が行える。(Permutation variable importance)
See
Cutler, Cutler and Stevens.
Breiman (2001), p23.
Hastie, Tibshirani and Freidman, p593.

causal_statのノート

R, Tex, データサイエンスに関するノート

Random forest : Use of out-of-bag data