causal_statのノート

R, Tex, データサイエンスに関するノート

Random forest : main idea

 

BreimanとCutler のrandom forestのページ

https://www.stat.berkeley.edu/~breiman/RandomForests/

http://www.math.usu.edu/adele/RandomForests/index.htm

Random forest のアルゴリズム

 {\mathcal D}=\{(x_1,y_1),\ldots,(x_n,y_n) \}

 

サイズN のブートストラップ標本 {\mathcal D}_j {\mathcal D}から

生成する。

 

  

Breiman は1994年にBagging,  2001年にrandom forest の論文を発表した。

現在Random forest は広範に使用されている

1. Breimanのページ

how to choose  m cross validation ? 

2. Random forest の解説(Adele cutler 教授)

http://www.math.usu.edu/adele/RandomForests/UofU2013.pdf

M個の説明変数からランダムにm個選択し、それを用いて最良の分割を求める。

m: tuning parameter

〇 predictor variables の集合からwithout replacement sampling をすることが

random forest の最大の特徴  

020813_AdeleCutlerSeminar_0  (Youtube) わかり易い 

Random Forests, Adele Cutler, D. Richard Cutler and John R. Stevens

(これも分かり良い)

Random forest にはリサンプルの方法によっていくつかのバリエーションがある。

(Bootstrap, subsample, )  m out of n bootstrap with random m? 

Random forests with subsampling

Wager,  ASYMPTOTIC THEORY FOR RANDOM FORESTS

Tools for proof: Hajek projection, Efron-Stein ANOVA decomposiotion etc.

 

causal random forest

https://econ.washington.edu/sites/econ/files/old-site-uploads/2014/08/Causal-Random-Forests_Duncan.pdf

Reference になりそうな文献

〇 http://www.math.uwaterloo.ca/~hachipma/stat946/koulis.pdf

http://math.bu.edu/people/mkon/MA751/L19RandomForestMath.pdf

 

Random Forestは、CARTよりも予測力に優れている。

しかしCARTの持つモデルの解釈の容易性は失われる。

1.CART-after-Random Forestはどうか?

Random Forest でimprtance が高い変数だけを用いてCARTを推定。

2.Random-Forestを求め、得られたRandom Forest に最も近いclassfication

を行うCARTを求める。

2.A案 Random Forest で

2.B案 

3.Bagging-after- Random forest はどうか?

# of predictor variables fixed. 

CART \prec Bagging  \prec