causal_statのノート

R, Tex, データサイエンスに関するノート

Random forest : Statistical inference

Random Forest と統計的推論

Athey and Wager
Wager established asymptotic normality of predictor.
Wager, Hastie and Efron (2014) proposed the infinitesimal jackknife to construct a confidence interval with Random Forest.

Q:regression tree の場合:予測量の漸近正規性
  classification tree の場合何が証明できる?Error rate?

以下の論文にさまざまな理論的結果がまとめられている模様
Biau and Scornet, Random Forest Guided Tour

Hastie, Tibshirani and Friedman (以降でHTFとよぶ), p.588 15.4節には、bootstrap sample から育てるtreeの相関とrandom forest の分散の関係が説明されている。

Breiman (HTFを参照)によれば、(広義の)Random forest ではtree のbias を大きくしない範囲でresample から得られるtree同士の相関を小さくすることによってRandom Forest の分散を小さくできる。
つまり h({\cal D}_i, \Theta_i) h({\cal D}_j, \Theta_j) の相関を小さいようにresample したい。
そのために複数の方策があると考えられる。

  •  {\cal D}_i {\cal D}_j の重複が一定以下になるように制限の

もとでresampleする方法も考えられる。最小の重複数を mdo minimum degree of overlapp とする。

  • 重複度が一定値未満の  {\cal D}_i {\cal D}_jが 多くはいるようなサンプリングできないか。

subsampling, bootstrap 両方で考えられる。