機械学習の学習を進めていく中で、観測されたデータの特徴を要約する数値である統計量をよく目にします。その中でも代表的な統計量である平均、分散、標準偏差、おまけで共分散を、このページを見ると思い出せるように、まとめておきます。正規分布を理解する前提知識として重要ですしね。
平均
平均、分散、標準偏差の中で一番馴染みがあるのが平均だと思います。よく学生の頃に「今回の期末テストの英語の平均点は60点です」なんてセリフを耳にしていましたね。
統計学において、平均には母平均と標本平均があります。母平均は、母集団の相加平均のことで、標本平均は、抽出した標本(母集団の部分集合)の相加平均になります。
また、色々参考資料やサイトを見ると、母平均を \(\mu\) 、標本平均を \(\overline{x}\) と、よく用いられています。
数式
pythonで実行
平均、分散、標準偏差の説明には、よくテスト(試験)が例に用いられていて分かり易いので、ここでもそれに倣います。

偏差
統計学において、偏差とは、ある母集団に属する数値と、母集団の基準値(平均値)との差です。
数式
pythonで実行

分散
統計学において、分散とは、数値データのばらつき具合を表す値です。分散を求めるには、上の偏差を二乗し、平均を計算します。
数式
標本分散
平均が同じデータでも、全てのデータが平均付近にある場合は分散は小さく、平均よりも極めて大きなデータ点や小さなデータ点が多数ある場合、分散は大きくなります。
日頃からよくお世話になっている Chainer Tutorial には、統計量をはじめ、機械学習の基礎である微分、線形代数も非常に分かり易く説明してくれています。
不偏分散
pythonで実行

標準偏差
統計学において、標準偏差とは数値データや確率変数のばらつき具合を表す値です。分散との違いは下の数式を見ると分かります。
分散はデータの平均からの差の二乗の平均でした。そのため単位は元の単位を二乗したものになります。例えばデータの単位が \(\rm kg\) であれば、分散の単位は \(\rm kg^2\) になります。そこで、分散 \(\sigma^2\) の平方根 \(\sigma\) を計算することで、データと単位が等しくなり、解釈が容易になります。
数式
pythonで実行

英語のテストの点数が平均の48点だったとしても標準偏差によって価値が違うということ。
共分散
共分散とは二組の対応するデータの間の関係を表す数値です。平均、偏差、分散、標準偏差の具体例で使用した英語の点数と、例えば数学の点数との関係を表します。
また、二組の相関性を定量的に測るのに相関係数を用います。
数式
相関係数 \(\rm r\) は常に −1≤ \(\rm r\) ≤ 1 になり、相関が認められるとき、 \(\rm r\) の値が正の場合は正の相関があるといい、逆に負の値のときは負の相関があるといいます。
2 種類のデータ間の相関が強いほど \(\rm r\) の絶対値は大きくなります。 しかし、「\(\rm r\) がいくつ以上ならば相関があると思って問題ない」という閾値はタスクごとに異なり、例えば \(\rm r\)=0.2 から相関ありと判断してよいかは一概には言えません。