はじめに

この資料の対象者

  • ビジネスにデータサイエンスを活かしたい方
  • 統計学をこれから勉強したい方
  • 統計検定などの資格取得に挑戦したい方

この資料では、統計学の基本的な知識を、実務に役立つ形で解説することを目指しています。

100ページ程度の大作になりました。

目次

  1. 記述統計
  2. データの散らばりの指標
  3. 確率と確率分布
  4. 相関と回帰
  5. 統計的推測

特に力を入れているのは、「統計的推測」パートです。

p値や信頼区間の間違いやすい解釈を取り扱いつつ、現場でのシーンに合わせた「母平均の推定と検定」「母比率の推定と検定」についてしっかり解説しました。

統計学基礎講座PDFダウンロード

概要

少し概要を記載しておきます。

記述統計

記述統計は、与えられたデータ全体を可視化したり要約したりする方法です。例えば、商品の売上データから月ごとの売上平均や最大値を算出することが記述統計にあたります。代表値(平均値、中央値、最頻値)や分位数度数といった記述統計で用いられる基本的な概念について、図解や具体例を用いて解説しています。

  • 平均値はデータの総和をデータ数で割った値。外れ値の影響を強く受ける
  • 中央値はデータを小さい順に並べたときの真ん中の値で、外れ値の影響を受けにくいという点で平均値とは異なる
  • 最頻値はデータの中で最も頻繁に出現する値

そのほかの解説トピック:分位点、度数分布表など

推測統計

推測統計は、標本(サンプル)と呼ばれるデータの一部から、母集団全体の特性を推測したり予測したりする方法です。例えば、一部の顧客にアンケートを実施し、その結果から全顧客の満足度を推定するのが推測統計にあたります。資料では、期待値分散標準偏差標本分散不偏分散変動係数などについて解説しています。

  • 期待値は確率変数がとりうる平均的な値を表す指標です。
  • 分散はデータのばらつきの程度を示す指標で、標準偏差は分散の平方根です。

そのほかの解説トピック:不偏性、不偏分散、変動係数など

確率

この資料では、基本的な確率分布について解説しています。確率分布とは、確率変数がどのような値をとるか、その確率がどのように分布しているかを示すものです。

  • ベルヌーイ分布は、成功または失敗といった2つの結果しか起こりえない事象を表す確率分布です。
  • 二項分布は、ベルヌーイ試行を複数回行ったときに成功する回数が従う確率分布です。
  • 正規分布は、平均値を中心とした左右対称の釣鐘型の形状をしています。

それぞれの確率分布の特徴や期待値、分散について説明し、図解を用いて説明しています。

そのほかの解説トピック:中心極限定理、二項分布の正規近似

中心極限定理は、互いに独立で同一の分布に従う確率変数の和が、サンプル数を増やすと正規分布に近づくという定理でしたね。

相関と回帰

主に相関係数と回帰分析の解説をしました。

相関分析は、2つの変数の間の関係の強さを調べる方法です。相関係数は、2つの変数の間の線形関係の強さと方向を示す指標で、-1から+1までの値をとります。相関係数が正の値であれば正の相関、負の値であれば負の相関があると言えます。

回帰分析は、1つまたは複数の変数(説明変数)から別の変数(目的変数)を予測する手法です。回帰分析では、説明変数と目的変数の関係を回帰式という式で表します。

統計的推測

最後に、推定と仮説検定について説明しています。仮説検定は、母集団に関する仮説が正しいかどうかを、標本データに基づいて検証する手法です。帰無仮説と対立仮説という2つの仮説を設定し、検定統計量と有意水準を用いて帰無仮説を棄却するかどうかを判断します。資料では、t検定z検定といった具体的な検定方法について、ビジネス的な例題を交えながら解説しています。

そのほかの解説トピック:母平均の推定と検定、母平均の差の推定と検定、母比率の推定と検定、母比率の差の推定と検定

統計検定等、日々の学習になれば幸いです。

こちらからダウンロードできます。

統計学基礎講座PDFダウンロード