causal_statのノート

R, Tex, データサイエンスに関するノート

Random forest : Use of out-of-bag data

Random forest : Use of out-of-bag data

Generalization error を推定するout-of-bag 推定という巧妙な方法がある。

Generalization errorは
 Err_{{\cal D}}:=E[L(Y, \hat{f}(X)|{\cal D} ]
で定義される。ただし  {\cal D} はトレーニングセット

Random Forest は、Bagging (Bootstrap aggregation)とtreeのsplit 時に予測変数のランダムな選択を組み合わせたもの。その過程で以下のようにout-of-bag 推定が行える。

classication に用いた場合のRandom Forestは
レーニングセットからの J 個のブートストラップ標本  {\cal D}_j,\ \  j=1,\ldots s, J
に基づく。  (x_i, y_i)\in{\cal D} を固定する。
 (x_i, y_i) が属さないブートストラップ標本一つ一つから classfication tree を作る。
このclassfication tree による予測  \hat{h}_j(x_i) を用いてvote するのが、y_i のout-of-bag
予測 \hat{f}_{{\rm oob}}(x_i) である。これを用いて計算したloss を  i=1,\ldots,N について平均したのがGeneralization error rate のout-of-bag 推定である。


Variable importance の推定
Out-of-bag推定を用いてvariable importanceの推定が行える。(Permutation variable importance)
See
Cutler, Cutler and Stevens.
Breiman (2001), p23.
Hastie, Tibshirani and Freidman, p593.