【kaggle】ベイズ最適化とXGBでtitanicの予測問題を解く|python

パラメータチューニングの手法の一つです。kaggleのデータセットを使った実践的なコンテンツです。

【アンサンブル学習】ブートストラップ法をpythonで実装|バギング

サンプルを復元抽出して予測値を出す手法である、バギングの紹介です。

【共線性解決】pythonで主成分分析をやってみた

いきなりコードから理解するのは難しいかもしれませんが、主成分分析の本質を理解できると思います。

【Box-Cox変換】様々な非線形変換について|python

Box-Cox変換という非線形変換を学習できます。分布の偏りが目立つ際に使ってみましょう。

【XGB】GridSearchを使いつつ特徴量重要度を知りたいッ‥!|python

feature_importances_というメソッドを使ってどの特徴量が目的変数に大きな影響を与えているかわかります。

【周期性を掴もう】pythonでコレログラムを書いてみましょう
statmodelというライブラリを使って簡単に自己相関係数を算出しています。波形分解も取り扱います。

【python】コサイン類似度は高校数学の知識で理解できます!
ベクトルの類似度を測るコサイン類似度を算出しています。自然言語処理に興味がある方は是非。

【非等分散編】pythonでWelchのt検定をやってみた
等分散かどうかのF検定も含めてコードを紹介しています。

【自然言語処理】形態素解析で文章を単語に分けてみましょう。

【自然言語処理】単語の出現頻度を可視化させてみましょう | python
自然言語処理の入門編です。コサイン類似度を学ぶ前に見とくと良いかもしれません。

【python】階層型クラスタリングとデンドログラムの実装について

教師なし学習の一つ、クラスタリング(ウォード法)を紹介しております。

【自然言語処理】gensimを使った単語の分散表現|python
word2vecというソフトウェアのskip-gramというニューラルネットワークのモデルを使って、単語の分散処理を行なっています。教師あり機械学習です。

【機械学習】単回帰分析をpythonで実装してみましょう

機械学習の基礎中の基礎を学べます。アイリスデータを用いているので再現性ありです。

【分類タスク】ロジスティック回帰の使い方|python

Rでもご紹介しましたが、pythonでもロジスティック回帰を紹介しています。活性化関数にシグモイド関数を使っている重回帰モデルです。

【機械学習】決定木の仕組みと実装方法について|python

わかりやすさからビジネスでも多く使われている決定木のモデル紹介です。

【Sequential】Kerasを使ったニューラルネットワーク|python

全結合型ニューラルネットワークを紹介しています。多層パーセプトロンの解説からメソッドの各引数の解説まであり、しっかりした内容になっております。

【XGB】交差検証法を使った勾配ブースティング決定木の実装|python

GBDTを扱っています。kaggleではとりあえず最初はこれ!というモデルです。ボリュームのあるコンテンツとなっています。

【多変量解析】ROC曲線とAUCによる判別分析|python

ROC曲線を作図しています。AUCの求め方もご用意しております。分類問題を解く際にご一読ください。

【python】Ridge(リッジ)回帰で多重共線性を解決する話

多重共線性を解決する正則化の一例です。マローズのCpなど発展的な内容も含んでいます。

【ランダムフォレスト】ブートストラップ法を決定木に応用|python

ランダムフォレストの仕組みを紹介しています。バギングについても解説しています。

【判別問題】サポートベクトルマシン(SVM)の仕組み|python

線形判別器の最適化の仕組みから解説しています。

【python】Lasso(ラッソ)回帰で疎なデータに対応しよう|機械学習

交差項を作成したデータを使って、不要な説明変数を削除するLasso回帰をしています。

【python】尤度比検定で統計モデルの比較をしよう|統計的仮説検定
汎用性の高い検定をご紹介しています。モデルとしての有効性やモデル間の比較に使えます。

【SHAP】特徴量重要度や寄与度、限界効果を意思決定者にうまく伝えたい話|python
特徴量の重要度をどうやって数値化し、蓋然性高く説明できるかに挑戦しています。

【pythonコードつき】機械学習とは何か|データサイエンス入門
手描き文字のコードを記載しています。データサイエンスの入門に是非。

【python】主成分分析(+回帰)の仕組みとコード例|教師なし学習
主成分分析の仕組みを線形代数を使って解説しています。主成分分析は簡単に実装できます。

【Leave-one-out】データ量が少ない時に使うクロスバリデーション|python
1レコードごとにテストデータを使うクロスバリデーションです。バイアスが少なくなりますが、計算量としてはk foldよりも膨大になるのが難点です。

【python】畳み込みニューラルネットワークによる画像判別プログラムの開発
画像判別問題で活躍するCNNのコードを紹介しています。活性化関数としてはReLuがよく使われますね。

【python】活性化関数の完全ガイド|特徴と効果的な選び方について|勾配消失問題
ニューラルネットワークをよく使う活性化関数の特徴と勾配消失問題について解説しています。

【SHAP】スタッキング(stacking)で特徴量の解釈はできるのか|pythonアンサンブル学習

スタッキングによるアンサンブル学習により、モデルの精度は上がるが解釈性は下がる問題に対し挑戦したコンテンツです。

【python】カーネルSVMとは?kernel関数を利用した非線形データの判別問題に挑戦|機械学習

サポートベクトルマシンによる判別問題で、線形判別ができない問題に対してカーネル関数を適用して最適な超平面を引くアルゴリズムのご紹介です。

【統計学】分散不均一だと何が問題なのか|不偏性とガウスマルコフ性について

ガウスマルコフ関数(基底が単純)でよく使う最小二乗法の効率性を担保する仮定である「分散均一性」について解説しています。