07/19/2022 / 最終更新日時 : 10/21/2023 bluest NLP 【自然言語処理】単語の出現頻度を可視化させてみましょう | python 今回は、形態素解析した単語たちを出現頻度ごとに集計してグラフ化させてみます。 アンケートや問い合わせの文言から、どんなキーワードがユーザーの不満や満足に繋がっているのかという示唆を得られる点では、かなり実務的なスキルにな […]
07/16/2022 / 最終更新日時 : 01/13/2024 bluest NLP 【自然言語処理】形態素解析で文章を単語に分ける | python 今回は自然言語処理の入門編ということで、形態素解析を行なってみます。 pythonの環境がある方向けに、MeCabのインストール方法も併せてご紹介します。 形態素解析 具体的な作業に入る前に、形態素解析をざっくり解説しま […]
07/15/2022 / 最終更新日時 : 04/29/2024 bluest Python 【非等分散編】pythonでWelch(ウェルチ)のt検定をやってみた 2標本問題において、標本間の母分散が等しいという等分散の仮定は、限られた場でしか信憑性がありません。 今回は、標本間の母分散が異なるときに使えるWelchのt検定を学びましょう。 等分散の仮定を置いた2標本問題の方が簡単 […]
07/09/2022 / 最終更新日時 : 02/12/2023 bluest Python 【非階層型】K-means法でクラスタリングをしてみましょう。 今回は、K-means法を取り扱います。クラスター分析に使われる手法です。 実際にどのようにしてクラスターを分けているのかわからない方は多いと思います。 ビジュアライゼーションソフトのtableauの機能の一つ「クラスタ […]
07/05/2022 / 最終更新日時 : 01/07/2024 bluest Python 【周期性を掴もう】pythonでコレログラムを書いてみましょう ヒストグラムや折れ線グラフなどはよく耳にしますが、「コレログラム」は聞いたことがないかたも多いと思います。 今回は統計検定2級や準一級でよく出る「コレログラム」についてまとめてみました。 統計検定のチートシートは以下をク […]
06/30/2022 / 最終更新日時 : 09/08/2024 bluest NLP 【python】コサイン類似度は高校数学の知識で理解できます!|自然言語処理 コサイン類似度(cosign similarity) コサイン類似度とは、「2つのベクトルがどれだけ近い(似ている)のかを示す指標」です。高校数学のベクトルの知識があればスムーズに理解できると思います。 もう少し詳細に説 […]
06/22/2022 / 最終更新日時 : 09/11/2024 bluest Python 主成分分析(PCA)をわかりやすく解説【統計検定準一級】|python 主成分分析 青の統計学へようこそ。 今回は、教師なし学習の一つ「主成分分析」について解説いたします。 数学的背景まで掘り下げたコンテンツは以下になります。 【python】主成分分析(+回帰)の仕組みとコード例|教師なし […]
06/20/2022 / 最終更新日時 : 10/14/2024 bluest Python 【統計検定準一級】ランダムウォークとマルチンゲールの話。 こんにちは、青の統計学です。 統計検定準一級では、「この確立過程Sは、マルチンゲールかどうか?」という問題が出ることがあります。 マルコフ性と並んで登場する「マルチンゲール」に、とっつきにくさを感じた方も多いと思います。 […]
06/19/2022 / 最終更新日時 : 10/31/2023 bluest Python 【python】ガウス過程回帰の仕組みと実務での応用|ノンパラメトリック機械学習 こんにちは、青の統計学です。 今回はガウス過程回帰について解説いたします。 製造業の現場など、n=20やそこらぐらいのデータセットで予測を行う必要がある時によく使われます。 ガウス過程は少数データとの相性がよく、予測値の […]
06/18/2022 / 最終更新日時 : 09/09/2024 bluest Python 【python】共分散分析(ANCOVA)の基礎から応用まで|因果推論 共分散分析 共分散分析は、調整平均を用いて、共変量(covariate)の影響を考慮した上で、群間の平均値の差を検定する方法です。 分散分析(ANOVA)と似ていますが、共分散分析は共変量を考慮する点で異なります。 →こ […]
06/11/2022 / 最終更新日時 : 01/13/2024 bluest Python 【因果推論】差の差(DID)分析による平均処置効果の推定|計量経済学 こんにちは、青の統計学です 今回は、社会科学の分野でもよく使われる「差の差分析」について解説いたします。 シンプルで理解しやすいかつ強力な分析手法ですが、並行トレンドの仮定など前提となるルールもあります。 差の差分析(d […]
06/03/2022 / 最終更新日時 : 09/16/2024 bluest Python ロジスティック回帰についてわかりやすく解説【二項分布】【統計検定】 ロジット関数とロジスティック関数 こんにちは、青の統計学です、 今回は、分類タスクの王道「ロジスティック回帰」について解説していきます。 しっかり復習したい方は、以下の記事をご覧ください。 基本は、線形回帰の拡張でしたね […]
05/31/2022 / 最終更新日時 : 01/20/2023 bluest Python 【少ないデータを多く見せる】ブートストラップ法について|R 今回は、ブートストラップ法について解説します。 ブートストラップ法(bootstrap method) ブートストラップ法とは、乱数を使って何らかの確率分布を予測する方法です。大事なのは、「重複を許し」てデータセットを複 […]
05/30/2022 / 最終更新日時 : 09/08/2024 bluest Python 【統計検定】ポアソン過程をわかりやすく解説|待ち行列理論 こんにちは、青の統計学です。 今回は統計検定準一級から登場する確立過程の一つ「ポアソン過程」について解説いたします。 このコンテンツに全て詰まっているのでブックマーク推奨です! 関わりの深い生存時間解析は、こちらで学習で […]
05/27/2022 / 最終更新日時 : 09/08/2024 bluest Python 【汎用性抜群】尤度比検定をわかりやすく解説します こんにちは、青の統計学です。 尤度比検定とは、汎用性の高い統計モデルの検定です。 その汎用性の高さは、サンプル数が十分大きい時には、尤度比検定統計量の対数に2をかけたものがカイ2乗分布に従う性質にあります。 行列を使わず […]
05/24/2022 / 最終更新日時 : 09/16/2024 bluest Python 【GLM】一般化線形モデルをわかりやすく解説|ポアソン回帰 一般化線形モデル(generalized liner model) 今回はGLMと呼ばれる「一般化線形モデル(generalized liner model)」を解説します。 よく似た名前として、分散分析や共分散分析など […]
05/23/2022 / 最終更新日時 : 01/13/2024 bluest Python 【python】分散分析(ANOVA)の基礎から応用まで|統計的仮説検定 こんにちは、青の統計学です。 今回は、分散分析について解説いたします。 分散分析(ANOVA) 分散分析(ANOVA)は、統計学において複数の群間で平均値に有意な差があるかどうかを判断する手法です。 管理人の主観ですが、 […]
05/13/2022 / 最終更新日時 : 09/13/2024 bluest Python 【統計】標準誤差を例題を通してわかりやすく解説|python 統計検定などで、信頼区間を求めることは多くあります。 そこで必要なのが標準誤差という概念です。 分布によって誤差の作り方が異なったりするため厄介です。 丁寧に学んでいきましょう。 標準誤差(standard error) […]
05/10/2022 / 最終更新日時 : 09/22/2024 bluest Python 【高校数学でわかる】分散と標準偏差をわかりやすく解説|散らばりの指標 分散(variance)と標準偏差(standard deviation) こんにちは、青の統計学です。 今回は、統計の基本である分散と標準偏差について解説していきます。 高校数学でも扱われる内容なので、高度な数学は必要 […]
05/06/2022 / 最終更新日時 : 09/19/2024 bluest Python 【統計検定準一級】回帰診断法とは?|残差プロットとleverageをわかりやすく解説 回帰診断法 回帰診断法は、回帰分析において誤差項の仮定が成立しているかどうかを評価する手法です。 仮定について詳しく深掘りたい方は、こちらを先に見た方がいいかもしれないです …で、これらの仮定を確認するために […]
05/03/2022 / 最終更新日時 : 01/16/2024 bluest Python 【時系列】ARモデルをわかりやすく解説|Yule-Walker法や最尤法も こんにちは、青の統計学です。 今回解説するのは、時系列モデルの基礎であるARモデルです。 まずは数式を見てみましょう。 ARモデル(autoregression model) $$y_{n} = \sum_{j=1}^{ […]
05/01/2022 / 最終更新日時 : 09/09/2024 bluest Python 【python】行列式や逆行列は機械学習でどう使われるのか|線形代数の活用方法 大学数学で習う線形代数は、統計学や機械学習ではどのように活用されているのでしょうか? なんとなく説明変数をたくさん書かなくても行ベクトル一つ書いておけば良いから楽、程度に考えているかもしれませんが、実はもっと役に立ってお […]
04/24/2022 / 最終更新日時 : 09/07/2024 bluest Python 【統計検定2級】歪度と尖度をわかりやすく解説|python こんにちは、青の統計学です。 今回は尖度と歪度という2つの統計量をみてみましょう。 モーメントを使った算出式を使っておりますが、尖度と歪度の計算の仕方は色々あります。 統計検定2級に挑戦したい方は、こちらのnoteもぜひ […]
04/23/2022 / 最終更新日時 : 09/16/2024 bluest Python 【統計学】ポアソン分布についてわかりやすく解説 ポアソン分布(poisson distribution) 統計学および確率論で用いられるポアソン分布とは、ある事象が一定の時間内に発生する回数を表す離散確率分布です。 定数\( \lambda > 0\ […]
04/22/2022 / 最終更新日時 : 09/09/2024 bluest Python 【R^2】決定係数をわかりやすく説明|python こんにちは、青の統計学です。 今回は、決定係数について解説します。 決定係数とは、作った回帰モデルはどの程度学習データと当てはまっているのか調べる方法の一つです。 統計検定2級に挑戦したい方は、こちらのnoteもぜひご覧 […]