CART 1
CART Classification and Regression Tree
Binary tree model
Classifier
Learning set
the set of measurements
the set of classes
d: classifier (clasification rule)
Criterion for which variable to use for splits
Gini index
をimpurity measure に使う。
CARTの手順をおおまかに次の2ステップ
- tree を育てる
- 育てたtreeをover fittingあるいは under fitting を避けるためにpruning を行う。
CARTは が連続変数の場合はregressuin treeといい、
Splitのルールは
に基づく。
がカテゴリー変数のときにはClassication tree と呼ばれ
に基づく(Gini係数という)。
ここで はノードにおけるクラスのobservations の割合。
一つのノードについてとthreshold によって2つのchild node を
作成し、左のchild node の基準関数 右のchilde nodeの基準関数を
とし、
が最小になるを求めそれが、split
になる。つまり
を求めてsplit を決める。
Rreferences
Classification and regression trees, Breiman, Freedman, Olshen, Stone
http://www.math.chalmers.se/Stat/Grundutb/GU/MSG500/A17/CARTlecture.pdf
次の解説論文の中でCARTについても説明しているが非常にわかりやすい。Random forestに結び付けて説明しているのでなお良い。
Random Forests, Adele Cutler, D. Richard Cutler and John R. Stevens