青の統計学へようこそ。
このページでは、データ分析コンペティション「Kaggle」で役にたつコンテンツをまとめています。

教師あり学習
【kaggle】ベイズ最適化とXGBでtitanicの予測問題を解く|python
パラメータチューニングの手法の一つです。kaggleのデータセットを使った実践的なコンテンツです。
【XGB】交差検証法を使った勾配ブースティング決定木の実装|python
迷ったらまずGBDTです。過学習に強い優秀なモデルです。パラメーターが多くてチューニングのしがいがあります。
【Box-Cox変換】様々な非線形変換について|python
前処理で使えるノウハウです。分布の偏りが目立つ際に使ってみましょう。
機械学習の基礎として単回帰分析をご紹介します。線形回帰で上位に食い込むのもなかなか難しいですよね。
2値分類で定番のロジスティック回帰の解説です。シグモイド関数やロジット関数まで網羅しております。言語はRとpythonです。
決定木の解説コンテンツです。わかりやすいながらも、パラメータのチューニングによっては精度の出る素敵なモデルです。
【Sequential】Kerasを使ったニューラルネットワーク|python
Kerasで使うニューラルネットはSequential()かFunctional APIがありますが、このコンテンツでは簡単に使える前者を紹介しています。
【多変量解析】ROC曲線とAUCによる判別分析|python
モデルの評価で使われるAUCの解説をしております。分類問題を解く際にご一読くださいませ。
【python】Ridge(リッジ)回帰で多重共線性を解決する話
多重共線性を解決する正則化の一例です。マローズのCpなど発展的な内容も含んでいます。
【ランダムフォレスト】ブートストラップ法を決定木に応用|python
グリッドサーチでチューニングするコードも紹介しています。仕組みから理解したい人に是非。
【判別問題】サポートベクトルマシン(SVM)の仕組み|python
分類問題で高い精度を誇ります。カーネル関数を使えば、線形分離不可能な問題にも対処できます。
教師なし学習
【python】階層型クラスタリングとデンドログラムの実装について
教師なし学習の1つ、クラスタリングの階層型(ウォード法)の紹介です。
次元削除の代表例、主成分分析の紹介です。kaggleに教師なし学習を使うコンペは比較的少ないですが、押さえておきましょう。
【非階層型】K-means法でクラスタリングをしてみましょう。
ウォード法とは異なる、一般的なクラスタリングの手法であるK-meansのご紹介です。scikitlearnで簡単に体験できます。