【超初心者向け】村人(僕)が魔王(機械学習)に挑む轍(3)平均・分散・標準偏差

オウルです。

機械学習の学習を進めていく中で、観測されたデータの特徴を要約する数値である統計量をよく目にします。その中でも代表的な統計量である平均分散標準偏差、おまけで共分散を、このページを見ると思い出せるように、まとめておきます。正規分布を理解する前提知識として重要ですしね。

平均

平均、分散、標準偏差の中で一番馴染みがあるのが平均だと思います。よく学生の頃に「今回の期末テストの英語の平均点は60点です」なんてセリフを耳にしていましたね。

統計学において、平均には母平均標本平均があります。母平均は、母集団の相加平均のことで、標本平均は、抽出した標本(母集団の部分集合)の相加平均になります。

また、色々参考資料やサイトを見ると、母平均を \(\mu\) 、標本平均を \(\overline{x}\) と、よく用いられています。

数式

\(\begin{aligned}\overline{x}= \frac{x_1 + x_2 + \dots + x_N}{N}= \frac{1}{N} \sum^{N}_{n=1} x_{n}\end{aligned}\)
\(\overline{x}\):平均値

pythonで実行

平均、分散、標準偏差の説明には、よくテスト(試験)が例に用いられていて分かり易いので、ここでもそれに倣います。

偏差

統計学において、偏差とは、ある母集団に属する数値と、母集団の基準値(平均値)との差です。

数式

\(x_i-\overline{x}\)
\(\overline{x}\):平均値

pythonで実行

分散

統計学において、分散とは、数値データのばらつき具合を表す値です。分散を求めるには、上の偏差を二乗し、平均を計算します。

数式

標本分散

\(\sigma^2 = \frac{1}{N} \sum_{n=1}^N \left( x_n – \overline{x} \right)^2\)
\(\overline{x}\):平均値

平均が同じデータでも、全てのデータが平均付近にある場合は分散は小さく、平均よりも極めて大きなデータ点や小さなデータ点が多数ある場合、分散は大きくなります。

Chainer Tutorialより引用

日頃からよくお世話になっている Chainer Tutorial には、統計量をはじめ、機械学習の基礎である微分、線形代数も非常に分かり易く説明してくれています。

不偏分散

\(\begin{aligned}s^2 = \frac{1}{N – 1} \sum_{n=1}^N \left( x_n – \overline{x} \right)^2\end{aligned}\)

pythonで実行

標準偏差

統計学において、標準偏差とは数値データや確率変数のばらつき具合を表す値です。分散との違いは下の数式を見ると分かります。

分散はデータの平均からの差の二乗の平均でした。そのため単位は元の単位を二乗したものになります。例えばデータの単位が \(\rm kg\) であれば、分散の単位は \(\rm kg^2\) になります。そこで、分散 \(\sigma^2\) の平方根 \(\sigma\) を計算することで、データと単位が等しくなり、解釈が容易になります。

Chainer Tutorialより引用

数式

\(\sigma = \sqrt{\frac{1}{n}\sum_{i = 1}^n {(x_i – \overline{x})^2}}\)
\(\overline{x}\):平均値
母集団や確率変数の標準偏差を \(\sigma\) 、標本の標準偏差を s で用いられている場合が多いです。

pythonで実行

英語のテストの点数が平均の48点だったとしても標準偏差によって価値が違うということ。

共分散

共分散とは二組の対応するデータの間の関係を表す数値です。平均、偏差、分散、標準偏差の具体例で使用した英語の点数と、例えば数学の点数との関係を表します。

また、二組の相関性を定量的に測るのに相関係数を用います。

数式

\(s_{xy} = \frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})\)
\(\overline{x}\):平均値
\(\overline{y}\):平均値

相関係数 \(\rm r\) は常に −1≤ \(\rm r\) ≤ 1 になり、相関が認められるとき、 \(\rm r\) の値が正の場合は正の相関があるといい、逆に負の値のときは負の相関があるといいます。
2 種類のデータ間の相関が強いほど \(\rm r\) の絶対値は大きくなります。 しかし、「\(\rm r\) がいくつ以上ならば相関があると思って問題ない」という閾値はタスクごとに異なり、例えば \(\rm r\)=0.2 から相関ありと判断してよいかは一概には言えません。

Chainer Tutorialより引用

参考

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA