07/23/2022 / 最終更新日時 : 03/20/2024 生成AI/GPT Python 【外れ値に対処】順位相関係数と相関係数の違いについて | python 相関係数は、外れ値があると大きく値が変わってしまうという特徴があり、正確な関係の把握が難しい場合があります。 そこで、外れ値に対処できる頑健(ロバスト)な相関係数が必要とされます。 それが、スピアマンの順位相関係数と呼ば […]
07/19/2022 / 最終更新日時 : 10/21/2023 生成AI/GPT NLP 【自然言語処理】単語の出現頻度を可視化させてみましょう | python 今回は、形態素解析した単語たちを出現頻度ごとに集計してグラフ化させてみます。 アンケートや問い合わせの文言から、どんなキーワードがユーザーの不満や満足に繋がっているのかという示唆を得られる点では、かなり実務的なスキルにな […]
07/16/2022 / 最終更新日時 : 01/13/2024 生成AI/GPT NLP 【自然言語処理】形態素解析で文章を単語に分ける | python 今回は自然言語処理の入門編ということで、形態素解析を行なってみます。 pythonの環境がある方向けに、MeCabのインストール方法も併せてご紹介します。 形態素解析 具体的な作業に入る前に、形態素解析をざっくり解説しま […]
07/15/2022 / 最終更新日時 : 04/29/2024 生成AI/GPT Python 【非等分散編】pythonでWelch(ウェルチ)のt検定をやってみた 2標本問題において、標本間の母分散が等しいという等分散の仮定は、限られた場でしか信憑性がありません。 今回は、標本間の母分散が異なるときに使えるWelchのt検定を学びましょう。 等分散の仮定を置いた2標本問題の方が簡単 […]
07/09/2022 / 最終更新日時 : 02/12/2023 生成AI/GPT Python 【非階層型】K-means法でクラスタリングをしてみましょう。 今回は、K-means法を取り扱います。クラスター分析に使われる手法です。 実際にどのようにしてクラスターを分けているのかわからない方は多いと思います。 ビジュアライゼーションソフトのtableauの機能の一つ「クラスタ […]
07/05/2022 / 最終更新日時 : 01/07/2024 生成AI/GPT Python 【周期性を掴もう】pythonでコレログラムを書いてみましょう ヒストグラムや折れ線グラフなどはよく耳にしますが、「コレログラム」は聞いたことがないかたも多いと思います。 今回は統計検定2級や準一級でよく出る「コレログラム」についてまとめてみました。 統計検定のチートシートは以下をク […]
06/30/2022 / 最終更新日時 : 10/21/2023 生成AI/GPT NLP 【python】コサイン類似度は高校数学の知識で理解できます!|自然言語処理 自然言語処理の分野でよく使われる、「コサイン類似度」について解説しようと思います。 タイトルに書いてあるとおり、高校数学のベクトルの知識があればスムーズに理解できると思います。 ブックマーク推奨です! Cos類似度(co […]
06/22/2022 / 最終更新日時 : 05/08/2023 生成AI/GPT Python 【共線性解決!?】pythonで主成分分析(PCA)をやってみた 青の統計学へようこそ。 今回は、教師なし学習の一つ「主成分分析」について解説いたします。 数学的背景まで掘り下げたコンテンツは以下になります。 【python】主成分分析(+回帰)の仕組みとコード例|教師なし学習 主成分 […]
06/20/2022 / 最終更新日時 : 01/14/2024 生成AI/GPT Python 【統計検定準一級】ランダムウォークとマルチンゲールの話。 こんにちは、青の統計学です。 統計検定準一級では、「この確立過程Sは、マルチンゲールかどうか?」という問題が出ることがあります。 マルコフ性と並んで登場する「マルチンゲール」に、とっつきにくさを感じた方も多いと思います。 […]
06/19/2022 / 最終更新日時 : 10/31/2023 生成AI/GPT Python 【python】ガウス過程回帰の仕組みと実務での応用|ノンパラメトリック機械学習 こんにちは、青の統計学です。 今回はガウス過程回帰について解説いたします。 製造業の現場など、n=20やそこらぐらいのデータセットで予測を行う必要がある時によく使われます。 ガウス過程は少数データとの相性がよく、予測値の […]
06/18/2022 / 最終更新日時 : 05/05/2024 生成AI/GPT Python 【python】共分散分析(ANCOVA)の基礎から応用まで|因果推論 こんにちは、青の統計学です。 今回は交絡因子の影響を調整する共分散分析を解説しようと思います 共分散分析 共分散分析は、調整平均を用いて、共変量(covariate)の影響を考慮した上で、群間の平均値の差を検定する方法で […]
06/11/2022 / 最終更新日時 : 01/13/2024 生成AI/GPT Python 【因果推論】差の差(DID)分析による平均処置効果の推定|計量経済学 こんにちは、青の統計学です 今回は、社会科学の分野でもよく使われる「差の差分析」について解説いたします。 シンプルで理解しやすいかつ強力な分析手法ですが、並行トレンドの仮定など前提となるルールもあります。 差の差分析(d […]
06/03/2022 / 最終更新日時 : 04/30/2024 生成AI/GPT Python 【二項分布】ロジスティック回帰について|R GLMモデルと呼ばれる、一般化線形モデルにはポアソン分布だけではなく、色々の分布が使われます。 今回は二項分布を使った「ロジスティック回帰」について解説いたします。 Rではなく、pythonでコードを見たい方は【分類タス […]
05/31/2022 / 最終更新日時 : 01/20/2023 生成AI/GPT Python 【少ないデータを多く見せる】ブートストラップ法について|R 今回は、ブートストラップ法について解説します。 ブートストラップ法(bootstrap method) ブートストラップ法とは、乱数を使って何らかの確率分布を予測する方法です。大事なのは、「重複を許し」てデータセットを複 […]
05/30/2022 / 最終更新日時 : 01/13/2024 生成AI/GPT Python 【統計検定】ポアソン過程をわかりやすく解説|待ち行列理論 こんにちは、青の統計学です。 今回は統計検定準一級から登場する確立過程の一つ「ポアソン過程」について解説いたします。 このコンテンツに全て詰まっているのでブックマーク推奨です! ポアソン過程とは(poisson proc […]
05/27/2022 / 最終更新日時 : 01/19/2024 生成AI/GPT Python 【汎用性抜群】尤度比検定をわかりやすく解説します 尤度比検定とは、汎用性の高い統計モデルの検定です。 その汎用性の高さは、サンプル数が十分大きい時には、尤度比検定統計量の対数に2をかけたものがカイ2乗分布に従う性質にあります。 python中心に解説したコンテンツは以下 […]
05/24/2022 / 最終更新日時 : 01/13/2024 生成AI/GPT Python 【GLM】一般化線形モデルを解説|ポアソン回帰 今回はGLMと呼ばれる「一般化線形モデル(generalized liner model)」を解説します。 よく似た名前として、分散分析や共分散分析などの「一般線形モデル」が有りますが、一般線形モデルは正規線形モデルの一 […]
05/23/2022 / 最終更新日時 : 01/13/2024 生成AI/GPT Python 【python】分散分析(ANOVA)の基礎から応用まで|統計的仮説検定 こんにちは、青の統計学です。 今回は、分散分析について解説いたします。 分散分析(ANOVA) 分散分析(ANOVA)は、統計学において複数の群間で平均値に有意な差があるかどうかを判断する手法です。 管理人の主観ですが、 […]
05/19/2022 / 最終更新日時 : 11/27/2022 生成AI/GPT Python 【高校生向け】③分散のn倍問題(Lv.共通テスト) 共通テストには、「分散Wをn倍した時に、分散Zは何倍になるか(もしくは変わらない)」という問題がよく出ます。例題を通してみてみましょう。 今回は政府統計の、平成20年度学校保健調査の都道府県別「5歳から17歳の男子平均身 […]
05/13/2022 / 最終更新日時 : 04/28/2024 生成AI/GPT Python 【python/Rコードつき】標準誤差を例題を通して解説。 統計検定などで、信頼区間を求めることは多くあります。 そこで必要なのが標準誤差という概念です。 分布によって誤差の作り方が異なったりするため厄介です。 丁寧に学んでいきましょう。 標準誤差(standard error) […]
05/10/2022 / 最終更新日時 : 05/10/2023 生成AI/GPT Python 【高校数学でわかる】分散と標準偏差とは?|散らばりの指標 こんにちは、青の統計学です。 高校数学で対策が後回しになりがちな「データの活用」の基礎を説明していきます。 分散(variance)と標準偏差(standard deviation) 例として毎日サッカー部の出席者を計測 […]
05/03/2022 / 最終更新日時 : 01/16/2024 生成AI/GPT Python 【時系列】ARモデルをわかりやすく解説|Yule-Walker法や最尤法も こんにちは、青の統計学です。 今回解説するのは、時系列モデルの基礎であるARモデルです。 まずは数式を見てみましょう。 ARモデル(autoregression model) $$y_{n} = \sum_{j=1}^{ […]
05/01/2022 / 最終更新日時 : 01/16/2024 生成AI/GPT Python 【python】行列式や逆行列は機械学習でどう使われるのか|線形代数の活用方法 大学数学で習う線形代数は、統計学や機械学習ではどのように活用されているのでしょうか? なんとなく説明変数をたくさん書かなくても行ベクトル一つ書いておけば良いから楽、程度に考えているかもしれませんが、実はもっと役に立ってお […]
04/24/2022 / 最終更新日時 : 05/02/2024 生成AI/GPT Python 【統計検定2級】歪度と尖度をわかりやすく解説|python こんにちは、青の統計学です。 今回は尖度と歪度という2つの統計量をみてみましょう。 モーメントを使った算出式を使っておりますが、尖度と歪度の計算の仕方は色々あります。 統計検定2級に挑戦したい方は、こちらのnoteもぜひ […]
04/23/2022 / 最終更新日時 : 05/02/2024 生成AI/GPT Python 【統計学】ポアソン分布についてわかりやすく解説 こんにちは青の統計学です。 今回はポアソン分布について解説します。 確率分布には、離散確率分布と連続確率分布の2種類がありますが、ポアソン分布は、離散確率分布の一つです。 統計検定2級に挑戦したい方は、こちらのnoteも […]
04/22/2022 / 最終更新日時 : 05/05/2024 生成AI/GPT Python 【R^2】決定係数をわかりやすく説明|python こんにちは、青の統計学です。 今回は、決定係数について解説します。 決定係数とは、作った回帰モデルはどの程度学習データと当てはまっているのか調べる方法の一つです。 統計検定2級に挑戦したい方は、こちらのnoteもぜひご覧 […]