【t検定】t統計量(t値)の求め方
t統計量(t value)について解説
t統計量とは、t検定で使う検定統計量のことです。
t統計量は、回帰分析や仮説検定において重要な役割を果たす検定統計量です。特に、回帰係数の統計的有意性を評価する際に用いられます。統計検定2級でもよく出ますね。
一般的な定義は以下の通りです
${t = \frac{\hat{\theta} – \theta_0}{SE(\hat{\theta})}}$
ここで、
- ${\hat{\theta}}$は母数${\theta}$の推定量
- ${\theta_0}$は帰無仮説で仮定される母数の値
- ${SE(\hat{\theta})}$は${\hat{\theta}}$の標準誤差
標準誤差で真の値と推定量の差を割っていますね
推定誤差の大きさで調整しているという意味から、各説明変数を公平に比較し、計算された回帰係数が0から離れているかを確認するための指標です。
標準誤差とは標準偏差をサンプル数の平方根で割った値です。サンプル平均の分布の標準偏差ですね。
$$SE = \sqrt{\frac{\hat{\sigma}^2}{n}}$$
線形回帰モデルにおいて、特定の回帰係数${\beta_j}$に対するt統計量は次のように表されます:
${t_j = \frac{\hat{\beta}j – \beta{j,0}}{SE(\hat{\beta}_j)}}$
- ${\hat{\beta}_j}$は${\beta_j}$の最小二乗推定量
- ${\beta_{j,0}}$は帰無仮説で仮定される${\beta_j}$の値(多くの場合0)
- ${SE(\hat{\beta}_j)}$は${\hat{\beta}_j}$の標準誤差
このt統計量は、自由度(サンプル数-定数項含めた変数の数-1)のt分布に従います。
ちなみに、係数推定値の共分散行列の対角要素は各係数の推定値の分散を表し、その平方根を取ると、それぞれの係数の標準誤差になります。よって、対角要素の値が大きいほど、その回帰係数の推定値の不確定性(またはばらつき)が大きく、標準誤差も大きくなります。そして標準誤差が大きいほど、推定値が真の値からどの程度離れる可能性があるか、という指標も大きくなります。
標準誤差に関して学びたい方は以下をご覧ください。
母分散未知と不偏分散について
さて、繰り返しになりますが、T統計量の基本的な形式は以下の通りです。
$${t = \frac{\text{推定量} – \text{帰無仮説での値}}{\text{標準誤差}}}$$
標準誤差で帰無仮説の推定量と推定量の差を割っています。
具体的には、サンプル平均${\overline{X}}$と母平均${\mu}$の差を検定する場合、以下のようになります。
$${t = \frac{\overline{X} – \mu}{SE_{\overline{X}}}}$$
ここで重要なのは標準誤差${SE_{\overline{X}}}$の計算方法です。これは母分散${\sigma^2}$が既知か未知かによって異なります。
分散未知の場合
標準誤差はサンプル平均の分布の標準偏差でしたね。
$${SE_{\overline{X}}=\frac{s}{\sqrt{n}}}$$
ここで \(s\)はサンプルの標準偏差、\(n\) はサンプルサイズです。
サンプルの標準偏差 \(s\)は、以下のように計算されます。
$${s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2}}$$
これは上で扱った不偏分散の平方根ですね。
分散既知の場合
この場合は、標準誤差の計算に使う標準偏差は母分散の平方根でOKです。
$${SE_{\overline{X}}=\frac{\sigma}{\sqrt{n}}}$$
母分散 \(\sigma^2\)が既知である場合、標準誤差は母標準偏差\(\sigma\)を用いて直接計算されます
これでT統計量の算出に母分散がわかっているかどうかで計算が異なることがわかりました。
サンプルから分散を推定する必要がないため、計算がより簡単になりましたね。
さて、ここまでのまとめです。
例題に挑戦
ここで少し例題を解いてみましょう。
重さ\(\mu\)の製品を検品します。
サンプル数\(n=16\)標本平均\(3.950\)で、重さ\(X_1..X_n i.i.d〜N(\mu,\sigma^2)\)です。母分散はわからないものとします。
不偏分散は\(0.1\)とします。この時の\(\mu\)の95%信頼区間を作りましょう。
解説
正規分布かつ分散未知の場合は、t分布を使います。
$$\overline{x}- \frac{V}{\sqrt{n}}t_{\alpha/2}<p<\overline{x}+ \frac{V}{\sqrt{n}}t_{\alpha/2}$$
t分布には自由度が必要です。自由度は、サンプル数-1です。
よって15です。
α=0.1 | α=0.05 | α=0.025 | α=0.01 | α=0.005 | |
1 | 3.078 | 6.314 | 12.706 | 31.821 | 63.657 |
2 | 1.886 | 2.920 | 4.303 | 6.965 | 9.925 |
3 | 1.638 | 2.353 | 3.182 | 4.541 | 5.841 |
4 | 1.533 | 2.132 | 2.776 | 3.747 | 4.604 |
5 | 1.476 | 2.015 | 2.571 | 3.365 | 4.032 |
6 | 1.440 | 1.943 | 2.447 | 3.143 | 3.707 |
7 | 1.415 | 1.895 | 2.365 | 2.998 | 3.499 |
8 | 1.397 | 1.860 | 2.306 | 2.896 | 3.355 |
9 | 1.383 | 1.833 | 2.262 | 2.821 | 3.250 |
10 | 1.372 | 1.812 | 2.228 | 2.764 | 3.169 |
11 | 1.363 | 1.796 | 2.201 | 2.718 | 3.106 |
12 | 1.356 | 1.782 | 2.179 | 2.681 | 3.055 |
13 | 1.350 | 1.771 | 2.160 | 2.650 | 3.012 |
14 | 1.345 | 1.761 | 2.145 | 2.624 | 2.977 |
15 | 1.341 | 1.753 | 2.131 | 2.602 | 2.947 |
16 | 1.337 | 1.746 | 2.120 | 2.583 | 2.921 |
表を見るとt統計量は\(2.131\)です。
標本平均に\(3.950\)、Vに\(0.01\)(不偏標本分散)、\(n\)に\(16\)、tに\(2.131\)を代入すると範囲は\((3.897, 4.003)\)となりました。
母分散がわかっている場合に比べて範囲が広いです。
この範囲は平均を取った時に、100回に95回は値が収まる範囲と言えます。
有意水準とp値について復習したい方はこちらをご覧ください。
補足|t分布の確率密度関数について
ここではt分布の成り立ちをご紹介します。
まず\(u\)を標準正規分布に従う確率変数\(u\sim N(0,1)\)とし、\(v\)を自由度\(m\)のカイ二乗分布に従う確率変数\(v\sim \chi^2(m)\)とします。
この時、確率変数\(t=\frac{u}{\frac{v}{m}}\)は区間\((-\infty,\infty)\)において、t分布に従います。
以下が確率密度関数になります。
$$f(t) = \frac{\Gamma\left(\frac{m+1}{2}\right)}{\sqrt{m\pi}\,\Gamma\left(\frac{m}{2}\right)} \left(1+\frac{t^2}{m}\right)^{-\frac{m+1}{2}}$$
証明は省きますが、標準正規分布に従う確率変数とカイ二乗分布に従う確率変数の同時確率密度を計算して、上の変数変換を行い、\(t\)に関する周辺分布をとると上の密度関数が出てきます。
正規分布よりも裾が少し広い分布になり、分散未知の場合の母平均の区間推定に使うことができます。