【最短】統計検定2級合格ロードマップとチートシート|おすすめの本について
こんにちは、青の統計学です。
今回は、統計検定2級を合格するために参考になる本とチートシートをご紹介します。
統計検定準一級については以下をご覧くださいませ。
【最短合格】統計検定準一級のチートシート|難易度や出題範囲について
確率分布のモーメント母関数についての導出チートシートは以下のコンテンツをご覧ください。
【統計検定】確率分布のモーメント(積率)母関数完全ガイド|導出チートシート
統計検定2級について
統計検定2級は、大学基礎科目レベルの統計学の知識の習得とその活用について理解しているか問われる検定です。
統計検定2級を取得することで機械学習やデータ分析を行う際に必要な基礎知識が身につきます。
このような方にオススメの試験です。
・統計学の知識を身につけて上司にアピールしたい
・将来的にデータサイエンティストとして働きたい
・大学で学んだ統計学の知識を資格にしたい
範囲について
1変数データ | 中心傾向の指標、散らばりの指標、中心と散らばりの活用、時系列データの処理 |
2変数以上のデータ | 散布図と相関、カテゴリカルデータの解析、単回帰と予測 |
標本調査など | 観察研究と実験研究、各種の標本調査法、フィッシャーの3原則 |
確率 | 統計的推測の基礎となる確率、ベイズの定理 |
確率分布 | 各種の確率分布とその平均・分散 |
標本分布 | 標本平均・標本比率の分布、二項分布の正規近似、t分布・カイ二乗分布、F分布 |
推定 | 推定量の一致性・不偏性、区間推定、母平均・母比率・母分散の区間推定 |
仮説検定 | p値、2種類の過誤、母平均・母比率・母分散の検定[1標本、2標本] |
カイ二乗検定 | 適合度検定、独立性の検定 |
線形モデル | 回帰分析、実験計画 |
統計検定2級に合格する際に使用した本
私が2級を受験する際に参考にした本を3冊ご紹介します。
要ブックマークです。
後ほどチートシートもご紹介しますが、体系的に統計学を勉強しないかぎり、すぐに内容を忘れてしまいます。
「なぜ不偏分散を使う時に、t分布を参照するのか」
「ある水準の信頼区間を求める際に必要な情報は?」
など、角度を変えた質問が飛んでくると、よくわからないという結果になります。
合格だけではなく、その先のキャリアやスキルアップを目的とするならきちんと「統計学」を1から勉強してみて欲しいです!!!!!
まず参考書や問題集で基礎的な力をつけてから、チートシートを流し見して下さい^^
読めば読むほど理解が深まる:「統計学」久保川 達也 (著), 国友 直人 (著)
他のサイトでは、あまり薦められていない本になるかと思います。
ただ、自分が読んで本当にためになっているバイブル的な本を紹介しますので、品質は私が保証します。「統計学」は高校数学から大学の統計にステップアップするための教科書です。
これは、私が最初に出会った統計学の本であり、大学の統計学の授業で使った1冊です。
「確率変数」の概念の説明から始まり、離散確率分布→連続確率分布→仮説検定→回帰分析→社会科学への応用という統計検定にはぴったりの内容です。
特に例題が参考になり、統計学を体系的に勉強するには最適の本です。
価格:3080円 |
数式が苦手な方が挫折しないために:完全独習 統計学入門 Kindle版
価格的に安くて、内容も簡単めです。
統計について初めて関わる方や、あまり数式が好きではない方が苦手意識を持たずに徐々に慣れていくための本という位置付けです。
統計検定3級なども手始めに受けてみるのもいいかもしれませんね。
使うのは中学数学だけなので、この本だけで統計検定2級に挑むのはきついですが導入書としてはぴったりでしょう。
価格:1980円 |
統計検定2級|チートシート
フィッシャーの3原則について
これは、とりあえず覚えておけという類の事項です。
結構聞かれるし、実験計画を考える上で大事な考え方です。
1. 反復(Replication)
同じ条件下で複数回の実験や観測を行うことで、データの信頼性を高めることを目的にしています。
反復により、サンプルサイズが増え、統計的な推論がより正確になるということですね。
嬉しいポイント:制御できない要因の影響を偶然の誤差に転化できます。
2. ランダム化(Randomization)
実験の対象(例えば、被験者やプロット、時間など)に対する処理をランダムに割り当てる行為です。
ランダム化により、未知または制御できない外的要因による影響を平均化し、バイアスを減らすという恩恵があります。
嬉しいポイント:系統誤差を小さくできる
バイアスなどは以下のコンテンツをご覧いただければ理解が深まると思います。
【MSEを最小化】ガウス・マルコフの定理と最良線形不偏推定量について
3. 局所制御(Local Control)
実験条件や観測条件をできるだけ一定に保ち、他の影響因子の効果を最小限に抑えるということです。
これはブロック化や共変量調整など、実験設計において他の方法と組み合わされることもあります。例えば肥料による効果が知りたい場合に、土の状態や日当たりが異なっていては結果の解釈ができないということですね。
嬉しいポイント:系統誤差が偶然誤差かどうかを判断できる
決定係数について
ほぼ出るでしょう。モデルの説明力を表す指標です。
実務においても、よく出る指標で、1に近いほど評価が高いです(注意事項はあり)
$$R^2 = {\frac{回帰変動}{全変動}}=1-{\frac{残差変動}{回帰変動}}$$
全変動:\(\sum_{i=1}^N(y_{i}-{\overline{y}})^2\)
回帰変動:\(\sum_{i=1}^N(\hat{y}_i-{\overline{y}})^2\)
残差変動:\(\sum_{i=1}^N(y_{I}-{\hat{y}})^2\)
モデルの説明変数が増えるほど当てはまりはよくなるので、モデルの複雑さとのトレードオフになります。
特に説明変数の数が異なる回帰モデル同士を比較する場合には、自由度修正済み決定係数を使用します。
$$adjustedR^2 = 1-{\frac{\frac{\sum_{i=1}^{N}(y_{i}- \hat{y}_{i})^2}{n-d-1}}{\frac{\sum_{i=1}^{N}(y_{i}-{\overline{y}})^2}{n-1}}}$$
詳しくは以下のコンテンツでご覧ください。
第一種の過誤と第二種の過誤について
こちらは、統計的仮説検定において特に重要な概念ですね。
\(α\):第一種の過誤の確率、帰無仮説\(H0\)が真の場合に誤って帰無仮説を棄却してしまう確率
→正規分布表を参照し、\(Z_α\)を求める
\(β\):第二種の過誤の確率、対立仮説\(H1\)が真の場合に誤って帰無仮説を採択する確率。
→正規分布表を参照し、\(Z_β\)を求める
基本的にαが大きくなると、βは小さくなるという負の相関があります。
\(1-β\):検定力、対立仮説が真の場合に帰無仮説を正しく棄却する確率。
結局何が言いたいか:一定以下のαで検出力が最大の区間が一番いい区間です。なのでよく問題で有意水準を基準に問題を設定しています。
βは\(H1\)をもとに設定、αは\(H0\)をもとに設定するので 、上のような関係になります。
対象としている分布が違うということですね。
もっと詳しく勉強したい方は、この辺りのコンテンツをご覧いただくと良いと思います!
【仮説検定】p値をゼロから解説(第一種の過誤,第二種の過誤,検出力)
ちなみに統計検定準一級だと、有意水準と検定力を指定して、必要なサンプル数を算出するサンプルサイズ設計を扱う問題が出たりします。
分散分析について
統計検定2級で最も厄介なのが、分散分析だと思います。
早速チートシートポイントです。
それは、帰無仮説と対立仮説の立て方です。
H0:全ての水準の母平均が等しい
H1:少なくとも1つの水準の母平均が異なる
次は残差平方和、水準間平方和、F値の求め方をまとめております。
それぞれの自由度に関しては、
水準の自由度:水準数-1
全体の自由度:サンプル数-1
残差の自由度:全体の自由度-水準の自由度
ちなみに、AとBという水準がある場合、大抵A×Bという交互作用の水準もできますが、交互作用の自由度はAの自由度とBの自由度の積です。
水準と残差の分散(水準間平均平方和や残差平均平方和などと呼ばれるケースもあります)は、それぞれの平方和を自由度で割ってあげると算出できます。
ちなみに母分散の不偏推定量は、残差平均平方和と一致します。
$$SSB = \sum_{i=1}^{k} n_i (\bar{X}_i – \bar{X})^2$$
$$SSW = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (X_{ij} – \bar{X}_i)^2$$
$$F value = \frac{\frac{SSB}{v_{B}}}{\frac{SSW}{v_w}}$$
水準間平方和は、各水準の平均と全体平均の差をとり2乗→各水準のサンプル数で掛けた和ですね。
残差平方和は、各水準のデータと各水準の平均の差をとり、平方和を取り→水準間でも和をとる、ですね。
F値は、水準の分散を残差の分散で割った値です。これをF検定につかい、棄却限界値との大小比較に使います。
交互作用になろうが水準が幾つに増えようが、分母は残差の分散になります。
分散分析については、統計検定2級から出題されている定番テーマです。F値まできちんと求めて正解しておきたいところです。
【F値とは】分散分析による検定の多重性について|統計検定準1級
【統計検定2級で最も手強い(主観)】分散分析について解説します①
点推定値の95%信頼区間について
水準Aの平均値を使って、信頼区間を作ることもできます。
$$\overline{A}±t_{α/2,df}\sqrt{\frac{SSW}{n_A}}$$
ただしt分布の自由度は残差の自由度になります。
標準誤差の方は母分散の不偏推定量を水準のサンプル数で割り、根号をつけます。
おそらくこれが統計検定2級で出る最も難しい問題な気がします
標準誤差の定義が怪しい方は今一度、下記コンテンツを見返しててください。
t分布について
正規分布と使い分けができないという声をよく聞きますが、基本的に統計検定2級だと
「母分散がわからず、不偏分散を使っているときはt分布を参照する」と覚えていれば通用すると思います。
では早速検定統計量を見ましょう。
$$t \quad value = \frac{\hat{p} – p}{SE(\hat{p})}$$
標準誤差で帰無仮説の推定量と推定量の差を割っています。
推定誤差の大きさで調整しているという意味から、各説明変数を公平に比較し、計算された回帰係数が0から離れているかを確認するための指標です。
上の表を見ていただければ、t値と推定値(estimate)と標準誤差(Std error)がわかります。
このとき、t分布を参照しますが自由度はサンプル数-1となることに注意してください。
また、重回帰分析における回帰係数\(β_1\)の検定については以下のようになります。
$$t \quad value = \frac{\hat{β}_1 – 0}{SE(\hat{β}_1)}$$
この時の自由度は\(n-k-1\)です(kは説明変数の数)
そもそもなぜ母分散がわからないときはt分布を参照するのかについては、チートシートの対象外なので詳しくは以下のコンテンツをご覧ください。
【n-1で割る理由】不偏分散と不偏性についてわかりやすく解説
【統計学】分散不均一だと何が問題なのか|不偏性とガウスマルコフ性について
様々な抽出法について
次は様々な抽出法についてご紹介します。
クラスター抽出
母集団を網羅的に分割して、クラスターを構成した上でその中から抽出されたいくつかのクラスター内の個体全てを調査する方法。
全てっていうのがポイントですね。
系統抽出
通し番号を全個体について、1番目を無作為に選んだ後、一定の間隔で抽出する方法
多段抽出法
母集団をいくつかのグループにわけ、そこから無作為にいくつかのグループを選び…を続けていく。
ただし、段数を増やせば高い精度を得られるわけではありません。
層化抽出
部分母集団が違いに大きく異なるときに、各母集団でサンプルを抽出して標本のバランスを保つという方法です。
男女とかで分けたりしますね。結構一般的な手法です。
層別分析なども同じ考え方です。
偏相関係数について
偏相関係数とは、xとyの相関を求める際に他の変数zの影響を取り除いた相関係数です。
異なる事象を同じ事象で回帰させた時に、交絡を回避できる〜という文脈で取り上げられます。
例えば、年齢、収入、教育レベルなど、複数の変数がある場面で、年齢と収入の関係性を、教育レベルの影響を取り除いて評価したい場合などに使用します。
$$r_{xy|z}=\frac{r_{xy}-r_{xz}*r_{yz}}{\sqrt{1-r_{xz}}\sqrt{1-r_{yz}}}$$
普通の相関係数と偏相関係数に大きな差がある場合に、他の変数による交絡があると言えますね。
多重共線性や操作変数法などの議論に繋がります。因果まではわからないですが、実務でもよく使う指標です。
【論文解説】多重共線性は回帰分析にどのような影響を与えるのか
2標本の期待値の差の検定について
こちらはプールした不偏分散を使うのでなかなか難しいですね〜。
t検定を使います。早速検定統計量を載せます。
群Aはサンプル数mで、群Bはサンプル数nです。
$$t=(\sqrt{m}+\sqrt{n})\frac{μ_A-μ_B}{\sqrt{S^2}}$$
この時の分母は、プールした不偏分散といい、ちょっと計算が必要です。
$$S^2=\frac{(m-1)r_{1}^{2}+(n-1)r_{2}^{2}}{m+n-2}$$
このようにサンプル数でスケールして加重平均して不偏分散を求めています。
そもそもの不偏分散については、こちらで解説しています。
【n-1で割る理由】不偏分散と不偏性についてわかりやすく解説
等分散の仮定における2標本の期待値の差について
では、2群の分散が同じの場合はどうなるのでしょうか?
チートシートなので早速検定統計量をご紹介します。
$$Z=\frac{|\overline{X}-\overline{Y}|-|μ_1-μ_2|}{σ\sqrt{m-{-1}+n^{-1}}}〜N(0,1)$$
帰無仮説における期待値の差が0であれば、\(|μ_1-μ_2|\)は0になります。
$$α=P(|Z|>C|H_0)=2P(Z>C|H_0)$$
$$\frac{|\overline{X}-\overline{Y}|-|μ_1-μ_2|}{σ\sqrt{m-{-1}+n^{-1}}}=z_{\frac{α}{2}}$$
$$|\overline{X}-\overline{Y}|=σ\sqrt{\frac{m+n}{mn}}z_{\frac{α}{2}}$$
また、Cは2分のα分位点に一致することになります。
よって、\(Z\)が2分の\(α\)分位点よりも大きい時に、帰無仮説を棄却できます(嬉しい)。
「標準偏差\(σ\)」がわからない場合は、どうでしょうか?
基本母集団の分散はわからない場合が多いです。
等分散の仮定を置きつつも、母分散が未知の場合、母分散\(σ^2\)を不偏分散に置き換える必要があります。
不偏分散を使えば、置き換えた結果の検定統計量もt分布に従い、かつ不偏分散は自由度(m+n-2)のカイ2乗分布に従います。
不偏分散については、【n-1】不偏分散を解説します。をご覧ください。
今回は、等分散の仮定があるので、2標本を使った不偏分散を作ります。
$$V^2=\frac{1}{m+n-2}(\sum_{i=0}^m(X_i-\overline{X})^2\sum_{i=0}^m(Y_i-\overline{Y})^2)$$
Xの不偏分散とYの不偏分散の加重平均をとっているだけです。簡単ですね。
よって、新しい検定統計量Tは自由度\(m+n-2\)のt分布に従うことがわかりました。
$$T = \frac{|\overline{X}-\overline{Y}|}{V\sqrt{m^{-1}+n^{-1}}}〜t_{m+n-2,\frac{α}{2}}$$
ラスパイレス指数とパーシェ指数について
知っていると助かる問題があります。
ラスパイレス指数(Laspayres Index)とパーシェ指数(Paasche Index)は、価格指数や数量指数を計算する際に用いられる方法です。
これらの指数は、異なる時点における価格や数量の相対的な変化を測るものですが、計算方法に違いがあります。
ラスパイレス指数
ラスパイレス指数は、基準期\(t=0\)の数量を用いて価格の変化を評価します
$$L = \frac{\sum_{i=1}^{n} p_{i,t} \times q_{i,0}}{\sum_{i=1}^{n} p_{i,0} \times q_{i,0}}$$
\(n\):商品の数
\(p_{i,t}\):t時点での商品i価格
\(q_{i,t}\):t時点での商品iの数量
パーシェ指数
パーシェ指数は、現在の期\(t=t\)の数量を用いて価格の変化を評価します。
$$P = \frac{\sum_{i=1}^{n} p_{i,t} \times q_{i,t}}{\sum_{i=1}^{n} p_{i,0} \times q_{i,t}}$$
ラスパイレス指数は基準期の数量で価格の変化を評価しますが、パーシェ指数は現在の期の数量で評価します。
ラスパイレス指数はより保守的な(過去志向の)価格変化の評価を提供する一方、パーシェ指数はより現在志向の評価を提供するという特徴がありますね。
筆者の大学の経済のテストでも出題され、どっちかわからなくなった記憶があるので無理にでも語呂合わせでもして覚えて下さい。