causal_statのノート

R, Tex, データサイエンスに関するノート

R 前処理(重複のないデータを取り出す)

R

前処理

(データクリーニングという言葉もある)

以下は An introduction to data cleaning with R という論文

https://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf

以下はRjpWiki内のページ

 

一般に、Outliersを削除することや欠損値を埋めることは、データクリーニングのプロセスに含めず、統計的解析のプロセスとして見るべきと思う。

 

便利な関数

unique() という関数があり、引数としてデータフレームが使える。

http://a-habakiri.hateblo.jp/entry/2016/11/28/220443