共分散(covariance)

共分散の概要

共分散(Covariance)は、統計学において2つの変数がどの程度一緒に動くかを測るための指標です。つまり、共分散は2つの変数間の関係性を量化するための手段となります。

具体的に言うと、共分散が正の値を持つ場合、それは2つの変数が同じ方向に動く傾向にあることを示します。一方、共分散が負の値を持つ場合、それは2つの変数が逆の方向に動く傾向にあることを示します。共分散が0の場合、それは2つの変数間に明確な線形の関係がないことを示します。

しかし、共分散の絶対値自体はそのままではあまり有用ではありません。なぜなら、それは単位の影響を受けるからです(例えば、温度と収入の共分散を計算すると、その単位は「度×ドル」となり、意味をなさない)。そのため、共分散は主に相関係数(共分散を各変数の標準偏差で正規化したもの)の計算に使われます。相関係数は単位に依存せず、変数間の関係の強さを-1から1の範囲で表すため、直感的に理解しやすいです。

共分散の計算式は次のとおりです:

Cov(X, Y) = Σ[(X_i – μ_X) * (Y_i – μ_Y)] / (N – 1)

ここで、

  • XとYは変数
  • X_iとY_iはそれぞれXとYの個々の観測値
  • μ_Xとμ_YはそれぞれXとYの平均値
  • Σは加算のシンボル
  • Nは観測値の数

この公式を使って共分散を計算することができます。それぞれの観測値が平均からどれだけ離れているかを見て、それらがどの程度一緒に動くかを評価します。

Excelで共分散を調べる

Excelには共分散を計算するための2つの関数が用意されています。「COVARIANCE.P」関数と「COVARIANCE.S」関数です。

  1. COVARIANCE.P(「共分散.P」):これは母集団の共分散を計算します。つまり、全てのデータを含む集団の共分散を求める場合に使用します。

    引数は以下の通りです:

    • array1(配列1):最初のデータセット。
    • array2(配列2):第二のデータセット。
  2. COVARIANCE.S(「共分散.S」):これは標本の共分散を計算します。つまり、全体の一部であるデータセットから共分散を求める場合に使用します。

    引数は以下の通りです:

    • array1(配列1):最初のデータセット。
    • array2(配列2):第二のデータセット。

これらの関数はどちらも二つのデータセット間の共分散を計算しますが、その適用範囲が異なります。母集団全体のデータを扱っている場合は「COVARIANCE.P」を使用し、一部のデータ(標本)を用いて全体を推定する場合は「COVARIANCE.S」を使用します。