青の統計学へようこそ。

このページでは、データ分析コンペティション「Kaggle」で役にたつコンテンツをまとめています。

教師あり学習

【kaggle】ベイズ最適化とXGBでtitanicの予測問題を解く|python

パラメータチューニングの手法の一つです。kaggleのデータセットを使った実践的なコンテンツです。

【XGB】交差検証法を使った勾配ブースティング決定木の実装|python

迷ったらまずGBDTです。過学習に強い優秀なモデルです。パラメーターが多くてチューニングのしがいがあります。

【Box-Cox変換】様々な非線形変換について|python

前処理で使えるノウハウです。分布の偏りが目立つ際に使ってみましょう。

【機械学習】単回帰分析をpythonで実装してみましょう

機械学習の基礎として単回帰分析をご紹介します。線形回帰で上位に食い込むのもなかなか難しいですよね。

【分類タスク】ロジスティック回帰の使い方|python

【二項分布】ロジスティック回帰について|R

2値分類で定番のロジスティック回帰の解説です。シグモイド関数やロジット関数まで網羅しております。言語はRとpythonです。

【機械学習】決定木の仕組みと実装方法について|python

決定木の解説コンテンツです。わかりやすいながらも、パラメータのチューニングによっては精度の出る素敵なモデルです。

【Sequential】Kerasを使ったニューラルネットワーク|python

Kerasで使うニューラルネットはSequential()かFunctional APIがありますが、このコンテンツでは簡単に使える前者を紹介しています。

【多変量解析】ROC曲線とAUCによる判別分析|python

モデルの評価で使われるAUCの解説をしております。分類問題を解く際にご一読くださいませ。

【python】Ridge(リッジ)回帰で多重共線性を解決する話

多重共線性を解決する正則化の一例です。マローズのCpなど発展的な内容も含んでいます。

【ランダムフォレスト】ブートストラップ法を決定木に応用|python

グリッドサーチでチューニングするコードも紹介しています。仕組みから理解したい人に是非。

【判別問題】サポートベクトルマシン(SVM)の仕組み|python

分類問題で高い精度を誇ります。カーネル関数を使えば、線形分離不可能な問題にも対処できます。

教師なし学習

【python】階層型クラスタリングとデンドログラムの実装について

教師なし学習の1つ、クラスタリングの階層型(ウォード法)の紹介です。

【共線性解決】pythonで主成分分析をやってみた

次元削除の代表例、主成分分析の紹介です。kaggleに教師なし学習を使うコンペは比較的少ないですが、押さえておきましょう。

【非階層型】K-means法でクラスタリングをしてみましょう。

ウォード法とは異なる、一般的なクラスタリングの手法であるK-meansのご紹介です。scikitlearnで簡単に体験できます。