【最短合格】統計検定準一級のチートシート|難易度や出題範囲について

こんにちは、青の統計学です。

今回は、統計検定準一級のチートシートをご紹介します。

第二弾はこちら→【第2弾】統計検定準1級のチートシート|最短合格への道

統計検定2級はこちら→【最短】統計検定2級合格ロードマップとチートシート

確率分布のモーメント母関数についての導出チートシートは以下のコンテンツをご覧ください。

【統計検定】確率分布のモーメント(積率)母関数完全ガイド|導出チートシート

こちらでも個別のコンテンツをピックアップしております。より網羅的に学習したい方はこちらをご覧ください。

統計検定準一級の範囲と難易度

一旦統計検定準一級の範囲をご紹介します。

2級よりも範囲が広く内容も難しいです。準一級の壁は個人的に高いと思っています。

基礎統計学記述統計 ,確率と確率分布,推測統計,
多変量解析 主成分分析,判別分析,因子分析,クラスタ分析,
時系列解析時系列データの特性,ARMAモデル,
実験計画法一般的な実験の計画と分析,分散分析,因子計画
生存時間解析ハザード関数と生存関数,カプラン-マイヤー推定 ,コックス比例ハザードモデル
線形モデル単回帰分析,重回帰分析 ,一般化線形モデル 
ノンパラメトリック順位データの分析,散布図と相関  
ベイズ統計ベイズの定理,事前分布と事後分布,ベイズ的モデル選択
シミュレーションモンテカルロ法 ,確率的シミュレーション

確率過程や因子分析が対策後回しにしがちになるので、出題されると痛いです。

合格する際に参考にした本

チートシートの前に、筆者が合格の際に参考にした本を一冊だけ紹介させて下さい。

ボロボロになるまで読んだ一冊です。

現代数理統計学の基礎

この本は、基礎と呼ばれていますが、大学等で数学を学んでいなければなかなか読むのに骨が折れる一冊です。

ヤコビアンやマルチンゲールなどが、平気で出てきます。

特におすすめのポイントは、証明問題が豊富だということです。

この記事で取り上げておいていうのも変な話ですが、チートシートだけで覚えた内容は3日くらいで頭から抜けてしまいます。

「なぜ、サンプル数が大きい時にはAICよりもBICが指標として便利なのか」

「ギプスサンプリングとメトロポリスヘイスティングス法の違いってどこなのか」

「幾何分布の確率母関数は覚えていたけど、指数分布の確率分布がわからない..」

など、記憶で勝負してしまうと、少し角度を変えた問題に対処できずにいつまでも合格できません。

この、現代数理統計学の基礎の証明をしっかり確認して問題に臨めば、

「あ、判別関数も主成分分析も固有値問題に帰着するんだな」
→詳しくは、【線形代数】固有値や固有ベクトルは機械学習にどう使われているのか|主成分分析

「有意水準と検出力がわかれば、2群でも必要なサンプル数がわかるな。プールした分散を使わないと…」

のように、応用が徐々にですが効いてきます。

自信をつけたい方はぜひ!


現代数理統計学の基礎 共立講座 数学の魅力

おすすめ:統計検定2級を終えて、準1級に挑戦したい方。証明問題を中心に解きたい方。大学専門課程の統計を学びたい方。

概要:最初に、統計的推測を行う上で必要な確率・確率分布の基本的な事項を説明する。次に、最初に準備した道具立てに基づいて、確率分布に関する推測方法を説明する。ここまでにおいては、必要な知識をシンプルに解説し、また内容の理解を深められるように、演習問題を豊富に盛り込んでいる。

*ちなみに大学では計量経済学の教科書になっておりました。

実験計画法分野のチートシート

分散分析について

ここでは残差平方和、水準間平方和、F値の求め方をまとめております。

それぞれの自由度に関しては、

水準の自由度:水準数-1

全体の自由度:サンプル数-1

残差の自由度:全体の自由度-水準の自由度

ちなみに、AとBという水準がある場合、大抵A×Bという交互作用の水準もできますが、交互作用の自由度はAの自由度とBの自由度の積です。

水準と残差の分散(水準間平均平方和や残差平均平方和などと呼ばれるケースもあります)は、それぞれの平方和を自由度で割ってあげると算出できます。

ちなみに母分散の不偏推定量は、残差平均平方和と一致します。

$$SSB = \sum_{i=1}^{k} n_i (\bar{X}_i – \bar{X})^2$$

$$SSW = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (X_{ij} – \bar{X}_i)^2$$

$$F value = \frac{\frac{SSB}{v_{B}}}{\frac{SSW}{v_w}}$$

水準間平方和は、各水準の平均と全体平均の差をとり2乗→各水準のサンプル数で掛けた和ですね。

残差平方和は、各水準のデータと各水準の平均の差をとり、平方和を取り→水準間でも和をとる、ですね。

F値は、水準の分散を残差の分散で割った値です。これをF検定につかい、棄却限界値との大小比較に使います。

交互作用になろうが水準が幾つに増えようが、分母は残差の分散になります。

分散分析については、統計検定2級から出題されている定番テーマです。F値まできちんと求めて正解しておきたいところです。

【F値とは】分散分析による検定の多重性について|統計検定準1級

【統計検定2級で最も手強い(主観)】分散分析について解説します①

【統計検定2級で最も厄介(主観)】分散分析を解説します②

【統計検定2級】分散分析の信頼区間について|python

点推定値の95%信頼区間について

水準Aの平均値を使って、信頼区間を作ることもできます。

$$\overline{A}±t_{α/2,df}\sqrt{\frac{SSW}{n_A}}$$

ただしt分布の自由度は残差の自由度になります。

標準誤差の方は母分散の不偏推定量を水準のサンプル数で割り、根号をつけます。

標準誤差の定義が怪しい方は今一度、下記コンテンツを見返しててください。

【python/Rコードつき】標準誤差を例題を通して解説。

また検定の多重性に関しては、ボンフェローニの補正やturkeyの補正までわかるとバッチリです。

【F値とは】分散分析による検定の多重性について|統計検定準1級

回帰分析分野のチートシート

ロジスティック回帰の計算周りについて

さて、ロジスティック関数の式が与えられた時、適切にオッズや対数オッズなどが求められるでしょうか?

これを機に覚えておきましょう!

以下は詳細記事です。

【分類タスク】ロジスティック回帰の使い方|python

【二項分布】ロジスティック回帰について|R

$$z=β_0+\sum_{i=0}^{h}β_iX_i+ε$$

こちらのロジット関数のzが対数オッズになります。

つまり、\(log\frac{\hat{π}}{1-\hat{π}}=z\)です。

さて、では対数を外してオッズを求めてみましょう。

$$\frac{\hat{π}}{1-\hat{π}}=e^{β_0}+\sum_{i=1}^{h}(e^{β_{i}})^{X_k}$$

では肝心の確率の求め方は以下になります。

$$\hat{π}=\frac{e^z}{1+e^z}$$

こちらはNNでもよくみられるシグモイド関数形ですね。

偏相関係数について

偏相関係数とは、xとyの相関を求める際に他の変数zの影響を取り除いた相関係数です。

複数の変数が関与する場面で、特定の2つの変数間の純粋な関係性を評価したい場合に偏相関係数を使用します。

例えば、年齢、収入、教育レベルなど、複数の変数がある場面で、年齢と収入の関係性を、教育レベルの影響を取り除いて評価したい場合などに使用します。

$$r_{xy|z}=\frac{r_{xy}-r_{xz}*r_{yz}}{\sqrt{1-r_{xz}}\sqrt{1-r_{yz}}}$$

普通の相関係数と偏相関係数に大きな差がある場合に、他の変数による交絡があると言えますね。

多重共線性や操作変数法などの議論に繋がります。因果まではわからないですが、実務でもよく使う指標です。

【論文解説】多重共線性は回帰分析にどのような影響を与えるのか

【説明変数の相関】多重共線性を解説します。

生存時間解析について

生存関数\(S(t)\)とハザード関数の関係や、指数分布を例にとった確率密度関数の求め方などを解説します。

まず、\(S(t)\)を生存関数とおいた時、ハザード関数は以下のように表し、時刻tにおいて生存しているもののうち、その後短時間で死亡するものの率を示します。

$$h(t)=\frac{f(t)}{1-F(t)}=(-logS(t))’$$

ここで\(F(x)\)は確率分布関数、\(f(x)\)は確率密度関数を表します。

もし、\(S(t)=P(T≧t)=exp(-λt)\)のような形で表せる場合、累積分布関数は以下のように1との差で表すことができます。

$$1-exp(-λt),(t≧0)$$

この累積分布関数を時刻tについて微分すると、確率変数Tの確率密度関数が得られます。

$$f(t)=λexp(-λt),(t≧0)$$

さて、密度関数が求められたとのことで期待値について求めてみましょう。

$$E[f(t)]=\int λexp(-λt)dt$$

高校数学で習った部分積分を使ってみましょう。

$$\int_{0}^{∞}t(-e^{-λt})dt-\int_{0}^{∞}(-e^{-λt})dt$$

$$0-0-[-\frac{e^{-λt}}{λ}]_{0}^{∞}=\frac{1}{λ}$$

よって、期待値はハザード率の逆数であることがわかりました。

さて、今回は指数分布をご紹介しました。指数分布は一つの基本的なモデルとして使われますが、それが常に最も適切なモデルであるわけではありません。

指数分布は、イベントが発生する確率が時間の経過とともに一定である(メモリレス性)場合に当てはまります。

言い換えると、あるイベントがまだ発生していない時間tまでの生存時間がどれだけ長くても、次の瞬間にそのイベントが発生する確率は一定です。

しかし、多くの実際の現象では、時間の経過とともにイベントが発生する確率が増加するか、または減少することがあります。

このような場合、他の分布(例えばワイブル分布やロジスティック分布など)が指数分布よりも適切である可能性があります。

ワイブル分布の場合、確率密度関数は\(f(t)=λp(λt)^{p-1}e^{-(λt)^p}\)となり、指数分布の一般系を表します。

pと1との大小関係によって、ハザードが単調増加か単調減少か変わります。

中央値を求めたい場合は?

中央値や四分位を求めたい場合は、生存関数の方を使います。

$$S(t)=\frac{1}{2}$$

仮説検定分野のチートシート

独立性の検定のオッズ比と標準誤差について

男性と女性によって、新薬の投与による効果に違いがあるかを知りたいとしましょう。

男性女性
介入群aba+b
コントロール群cdc+d
a+cb+da+b+c+d

介入のオッズ比は以下のように表すことができます。

$$OR=\frac{\frac{a}{b}}{\frac{c}{d}}=\frac{ad}{bc}$$

それぞれの理論値を\(a*\)のように表すとすると、対数オッズ比の標準誤差は以下のように表すことができます。

$$SE(lnOR)=\sqrt{\frac{1}{a*}+\frac{1}{b*}+\frac{1}{c*}+\frac{1}{d*}}$$

よって、オッズ比の95%信頼区間は、以下のように表すことができます。

Zは、信頼区間に対応する正規分布のパーセンタイルです。

95%信頼区間の場合、 Zは1.96です。間違えてカイ2乗分布の3.84をかけないようにしましょう。

$$log(OR)±Z×SE(ln(OR))$$

また、この時のカイ二乗統計量は、以下のように表すことができます。

一般に独立性の仮説(帰無仮説)のもとでの期待度数\(m_{ij}\)は\(E_{ij}​=\frac{合計行iの度数×合計列jの度数}{全体の度数​}​\)と表せます。

$$χ^2=\sum\frac{x_{ij}-m_{ij}}{m_{ij}}$$

また、独立性の検定に関する逸脱度Gは以下のように表すことができます。

$$G^2=2\sum x_{ij}log\frac{x_{ij}}{m_{ij}}$$

この逸脱度がカイ二乗統計量と同様に独立性を検定するために使用されることがあり、データが期待度数に従っている場合、この統計量はカイ二乗分布に従うと期待されます。

さて、逸脱度と聞いて最大対数尤度とモデルの対数尤度の差に2をかけるものもあります。

【python】尤度比検定で統計モデルの比較をしよう|統計的仮説検定

2つの定義は、異なる目的のために逸脱度が計算されるため、異なります。

GLMの文脈での逸脱度は、モデルの適合度の評価に特化しているのに対し、今回の独立性の検定の文脈での逸脱度は、観測データと期待データの間の相違を評価するために使用されます。

上の統計量と逸脱度の自由度は、行数と列数に基づいて計算されます。

もし r行c 列のクロス表(分割表)がある場合、自由度 df は以下のように計算されます

$$df=(r-1)×(c-1)$$

2項分布周りの信頼区間や検定統計量など

コイン投げの表裏や男女のサービス利用率、発病したか否かなど、問題を作りやすい2項分布周りのチートシートになります。

確率\(p_i\)で事象\(A_i\)が起きる試行を\(n\)回行う場合、確率変数\(X_i\)は二項分布に従います。

以下のような期待値と分散を持ちます。

$$E(X_i)=np_{i},V(X_i)=np_i(1-p_i)$$

また、点推定値が\(\hat{p}_i\)の場合、95%信頼区間は以下のように表すことができます。

$$\hat{p}_i±1.96×\sqrt{\frac{\hat{p}_i(1-\hat{p}_i)}{n}}$$

二項分布の信頼区間を考える際の標準誤差は、二項分布の標準偏差に基づきます。

二項分布の標準偏差は、\(\sqrt{n×p×(1-p)}\)であり、信頼区間を計算する際の標準誤差は、この標準偏差を観測数 \(n\)の平方根で割ったものになるので、上のようになります。

標準誤差について復習したい方は以下のコンテンツをご覧ください。

【python/Rコードつき】標準誤差を例題を通して解説。

また、棄却限界域を求める際の検定統計量は以下のように表すことができます。

$$P(\frac{\hat{p}-p_{H0}}{\sqrt{\frac{p_{H0}(1-p_{H0})}{n}}}≧c)$$

母比率の差の検定について

インスタグラムの利用率について、男女で差があるのかという問題が出ましたね。

まず点推定値の信頼区間の求め方については以下のようになります。

$$\hat{θ}_{1}-\hat{θ}_{2}±Z_{α/2}\sqrt{\frac{\hat{θ}_{1}(1-\hat{θ}_{1})}{n_1}+\frac{\hat{θ}_{2}(1-\hat{θ}_{2})}{n_2}}$$

母比率の差についての仮説検定で使う統計量は以下のようになります。

正規分布の再生性を使っていますね。

$$\frac{\hat{θ}_1-\hat{θ}_2}{\sqrt{(\frac{1}{n_1}+\frac{1}{n_2})\hat{θ*}(1-\hat{θ*})}}$$

検出力と有意水準指定によるサンプルサイズ設計について

次は検出力80%や有意水準5%と指定された場合に必要なサンプルサイズの求め方について求めて行きます。

検出力については説明を省きますが、詳しくは以下のコンテンツをご覧ください。

【仮説検定】p値をゼロから解説(第一種の過誤,第二種の過誤,検出力)

まずは、以下のような具体例を見てみましょう。

[2群の平均の差の検定]

投薬による血圧減少量を知りたいとして、新薬群の期待値をμ_a,プラセボ群の期待値をu_pとします。
H0:μ_a=μ_p
H1:μ_A-μ_P=δ>0
上のような仮説の置き方になります。

・有意水準5%で有意
・検出力は80%を担保
したいときに必要なサンプルサイズを求めたいです。

前提:それぞれの群のサンプルサイズは同じで、どちらも分散σ^2の正規分布に従う

まず2群の平均値の差がどのような分布に従うのかをみた方が良いですね。

帰無仮説が正しいと仮定すると、当然期待値は0です。

一方で対立仮説が正しいとすると、期待値は問題通り\(δ\)となります。

また、分散は分散の加法性より\(\frac{2σ^2}{n}\)ですね。

*ちなみに同じ分布に従う\(μ_A\)と\(μ_P\)の差なんだから、当然正規分布に従うだろと思うかもしれませんが、これは「再生性」という正規分布の性質があるからです。

必ずしも同じ分布になるとは限らないので、覚えておきましょう。ポアソン分布とかも再生性があります。

【統計学】ポアソン分布についてわかりやすく解説

さて分散がわかったところで検定統計量を作りましょう。

実現値\(δ\)を標準偏差で割ります。

$$\frac{δ}{\frac{2σ^2}{n}}$$

また、片側検定の場合、\(Z_α\)と\(Z_β\)の値は、通常の正規分布のパーセンタイルから求められます。

片側5%の棄却限界域と検出力80%より、\(z_α=1.64\)で\(z_β=0.84\)ですね。

仮説検定の文脈で考えると、\(Z_α\)は第一種の過誤のリスクを制御するための閾値を、\(Z_β\)は検出力を制御するための閾値を示しています。

以下がチートシートポイントです。

サンプルサイズの計算式を導出するため、まず、次のような等式を考えます。

$$\frac{δ}{\frac{2σ^2}{n}}-Z_β=Z_α$$

$$δ-\frac{2σ^2}{n}*Z_β=Z_α*\frac{2σ^2}{n}$$

なぜこのような形になるかというと、

この式は、差\(δ\)が実際に存在する場合(H1)の分布の平均\(δ\)から\(Z_β\)だけ左にずれた位置が、差が0のとき(H0)の分布の平均から\(Z_α\)だけ右にずれた位置と一致するという意味を持っています。

つまり検出力は対立仮説が正しいと仮定し、有意水準では帰無仮説が正しいと仮定しているのです。

計算を続けます。

$$δ=(Z_α+Z_β)*\frac{2σ^2}{n}$$

$$n=2σ^2×(\frac{(Z_α+Z_β)}{δ})^2$$

因子分析についてのチートシート

バリマックス回転

因子負荷量の解釈をし易くするように、因子負荷行列の各要素の2乗の分散の和を最大にする回転方法です。

具体的には、ある因子負荷行列\(P\)が存在するとき、この行列を回転させるためには、適切な回転行列\(T\)を使って新しい因子負荷行列\(P′\)を得ます。

この操作は以下のような数式で表すことができます

$$P’=P×T$$

この回転により、各因子でいくつかの因子負荷の絶対値は1にに近づき、それ以外の因子負荷量は0に近づく傾向になります。

共通性について

共通因子には、独自性と共通性があり、値を求める問題が出ます。

因子負荷量が与えられた場合、共通性は\(α_{i}^2\)と表すことができます。

$$1=α{i}^2+d_{i}^2$$

このように因子負荷量と独自係数の平方和は1になることを利用し、因子負荷量を使って独自性まで求めることができます。

確率過程分野のチートシート

ブラウン運動の増分について

独立なブラウン運動の差分の積の期待値は0になることを覚えていただきたいです。

\(B_t-B_s〜N(0,t-s)\)ということになります。

増分が正規分布に従うということですね。

以下のようなブラウン運動1,2,3に基づく確率過程が二つあるとします。

$$x_t=x_0+σ_1\sqrt{ρ}B_t^{1}+σ_1\sqrt{1-ρ}B_t^{2}$$

$$y_t=y_0+σ_2\sqrt{ρ}B_t^{1}+σ_2\sqrt{1-ρ}B_t^{3}$$

ブラウン運動に基づく2つの確率過程 \(x_t\)と \(y_t\)​を考える時、それぞれの差分は次のように書けます

$$Δx_k = x_{\frac{k}{10}} – x_{\frac{k-1}{10}}$$

$$Δy_k = y_{\frac{k}{10}} – y_{\frac{k-1}{10}}$$

では、この差分の積の期待値\(E[Δx_kΔy_k]\)を求めてみましょう。

この期待値の中で、独立なブラウン運動の差分の積の期待値は0になるので

$$E[ΔB_t^{(1)}B_t^{(2)}]=0$$

$$E[ΔB_t^{(1)}B_t^{(3)}]=0$$

このようになります。

一方、同じブラウン運動の差分の期待値は、以下のように非ゼロです。

$$E[ΔB_t^{(1)}B_t^{(1)}]=Δt$$

したがって、積の期待値の非ゼロの部分は次の部分だけです

$$E[Δx_kΔy_k]=σ_1σ_2ρE[ΔB_t^{(1)}B_t^{(1)}]$$

この場合、\(Δt = \frac{1}{10}\) ですので答えは以下のようになります。

$$E[Δx_kΔy_k]=\frac{σ_1σ_2ρ}{10}$$

ブラウン運動(またはWiener過程)は確率過程の一つであり、特に連続時間の確率モデルにおいて頻繁に用いられます。

今回の独立なブラウン運動の積の期待値は0になるという特性以外にも、さまざまな性質があります。

以下にブラウン運動の主な特徴を挙げておきます。

開始地点: \(B(0)=0\)すなわち、時刻\(0\)におけるブラウン運動の値は\(0\)です。

連続性: ブラウン運動はすべての時刻で連続です。

独立性: ある時間間隔における増加分は、別の非重複の時間間隔における増加分と独立です。

正規分布の増分: ある固定の時間間隔、例えば \(t\)と \(t+Δt\)の間の増分、\(B(t+Δt)−B(t)\)は平均が0で分散が\(Δt\)の正規分布に従います。

時刻間の独立性: \(s<t\)に対して、 \(B(t)−B(s)\)は \(B(s)\) と独立です。

再び正規分布: ブラウン運動の増分は、その期間によらず、平均\(0\)の正規分布に従います。

中でもブラウン運動\(B_t\)の周辺分布、つまり増分の和は中心極限定理により、\(N(0,t)\)に従います。

確率過程については、以下のコンテンツでも取り上げております。

【統計検定準一級】ランダムウォークとマルチンゲールの話。

【統計検定】ポアソン過程をわかりやすく解説|待ち行列理論

ポアソン過程に従う時間tまでのイベント数の期待値の求め方について

強度(生起率とも言いますね)λのポアソン過程に従う時間tまでのイベント数\(X_t\)の期待値を求めたいです。

覚えてしまっても良いかもしれませんが、答えは\(λt\)です。

$$E[X_t]=\sum_{n=0}^{∞}ne^{-λt}\frac{(λt)^n}{n!}$$

無限等比級数の一部である、\(n\frac{(λt)^n}{n!}\)は\(e^{λt}\)のテイラー展開\(e^{λt}=\sum\frac{(λt)^n}{n!}\)の微分形です。

$$E[X_{t}]=e^{-λt}×λt×e^{λ}=λt$$

統計検定準一級の実際の問題だと、誤植発見率qが適用され期待値がλqtとなっていましたね。

イベントの発生したとしても、それを発見する確率も関わるという一段応用が効いた問題でした。

ポアソン過程については以下をご覧ください。

【統計検定】ポアソン過程をわかりやすく解説|待ち行列理論

複合ポアソン過程周りの分散について

複合ポアソン過程の分散まで知っておくと良いでしょう。

複合ポアソン過程を考える際、基本となるポアソン過程の発生回数を\(N_t\)とし、\(X_t=\sum_{i=1}^{N_t}U_i\)とした時、時刻tまでの観測数を\(X_t\)​になります。

確率qで観測するとします。

そして、\(U_k\)は独立にベルヌーイ分布に従うことにしましょう。

なので、\(E[U_i]\)=qおよび\(V(U_i)=q(1-q)\)が成立しますね。

ここで、\(X_t\)の分散を求めたいとします。

$$V (X_t) = E[X_{t}^2] − E[X_{t}]^2$$

これは普通に分散の性質です。この公式を整理すると以下のように和の形にできます。

$$E[X_{t}^2] = E[X_{t}]^2 +V(X_{t})$$

では、\(N_t\)という条件付きの形に落とし込みましょう。

$$E[X_{t}|N_t]^2 = E[X_{t}|N_t]^2 +V(X_{t}|N_t)$$

では、繰り返し期待値の法則\(E[Y]=E[E[Y|X]]\)を使ってみましょう。

$$E[X_{t}^2]= E[E[X_{t}^2|N_t] +V(X_{t}|N_t)]=E[E[X_{t}^2|N_t]] +E[V(X_{t}|N_t)]$$

$$V(X_{t})= E[V(X_{t}|N_t)]+E[E[X_{t}^2|N_t]]-E[E[X_{t}|N_t]^2]$$

$$V(X_{t})= E[V(X_{t}|N_t)]+E[V(X_{t}|N_t]]=E[N_t×V(U_i)]+E[N_t×V(U_i)]$$

$$V(X_{t})=E[N_t]×V(U_i)+E[N_t]^2×V(U_i)=λt×q(1-q)+q^2×λt=λqt$$

分散はλqtとなりました。期待値と一緒ですね。

FOLLOW ME !