相関係数(correlation coefficient)

ピアソンの積率相関係数

相関係数にはいくつかあるのですが、通常は「ピアソンの積率相関係数」(Pearson product-moment correlation coefficient)のことを指します。「ピアソンの積率相関係数」、または単に「ピアソンの相関係数」とは、2つの連続変数間の直線的な関係性を評価するための統計的指標です。相関係数は -1 から 1 の範囲の値を取り、その数値は2つの変数間の関係性の強度と方向を示します。

相関係数の値が正の場合、2つの変数は正の相関を持つと言います。つまり、一方の変数が増加すれば、もう一方の変数も増加します。相関係数が 1 に近づくほど、その正の相関の強度が増します。

逆に、相関係数の値が負の場合、2つの変数は負の相関を持つと言います。これは、一方の変数が増加すれば、もう一方の変数は減少します。相関係数が -1 に近づくほど、その負の相関の強度が増します。

相関係数が 0 の場合、2つの変数間には直線的な関係性がないとされます。しかし、これは「関係性がない」こととは必ずしも同義ではありません。非直線的な関係性が存在する可能性があります。

ピアソンの相関係数は次の式で計算されます:

ρ = Σ[(xi - μx)(yi - μy)] / [nσxσy]

ここで、

  • xiとyiはそれぞれxとyの個々の観測値です。
  • μxとμyはそれぞれxとyの平均値です。
  • σxとσyはそれぞれxとyの標準偏差です。
  • nは観測値の数(サンプルサイズ)です。

注意点として、ピアソンの相関係数は、2つの変数が線形的(直線的)な関係にあると仮定します。非線形の関係性がある場合、ピアソンの相関係数はそれを正確に捉えられません。また、相関係数は「関連性」を示すものであり、一方の変数が他方の変数を「引き起こす」因果関係を示すものではないことを理解することも重要です。

相関の強度基準

ピアソンの相関係数は、-1から+1の範囲の値をとります。その絶対値の大きさは、二つの変数間の関連性の強さを示します。その値がどの程度で「強い」または「弱い」相関を示すかというのは、文献により多少の違いがありますが、以下のように解釈されることが多いです:

  • 0.0 – 0.19: 非常に弱い相関
  • 0.2 – 0.39: 弱い相関
  • 0.4 – 0.59: 中程度の相関
  • 0.6 – 0.79: 強い相関
  • 0.8 – 1.0: 非常に強い相関

正と負の値は相関の方向を示します。正の値は、一方の変数が増加するともう一方の変数も増加する(同じ方向に動く)正の相関を示します。一方、負の値は一方の変数が増加するともう一方の変数が減少する(逆方向に動く)負の相関を示します。

ただし、相関係数はあくまで2つの変数間の線形関係の強さを示す指標であり、一方が他方を引き起こす因果関係を意味するものではないことを理解してください。また、非線形の関係を捉えることはできません。

Excelで相関係数を求める

Excelには、ピアソンの積率相関係数を計算するための2つの関数、PEARSONCORRELがあります。両者は基本的に同じ結果を返しますが、欠損値の扱い方が異なります。

PEARSON関数は、相関係数を計算する際に、対応する値が欠損している場合(つまり、一方の配列には値があるが、他方の配列には値がない場合)にエラーを返します。

一方、CORREL関数は、一方または両方の配列に欠損値がある場合でも相関係数を計算します。つまり、CORREL関数は欠損値を無視し、存在するデータポイントのみを用いて相関を計算します。

したがって、データセットが完全で、欠損値がない場合には、PEARSON関数とCORREL関数の両方を使って同じ結果を得ることができます。しかし、欠損値が含まれている可能性がある場合や、欠損値の扱いについて柔軟性を持つためには、CORREL関数を使用することが推奨されます。

以下に、2つのデータセット間のピアソンの相関係数を求めるための「CORREL」関数の使用例を示します。この例では、A列とB列にデータが入っていると仮定します。

=CORREL(A2:A11, B2:B11)

この関数の引数は次のとおりです:

  • 配列1:第一のデータセット。この例では、A2からA11までのセル範囲を使用しています。
  • 配列2:第二のデータセット。この例では、B2からB11までのセル範囲を使用しています。

この関数は、2つのデータセットの長さ(つまり、セルの数)が等しい場合にのみ正常に動作します。また、データセットに欠損値(空白のセル)が含まれていると、そのセルは無視されます。

結果として得られる値は、2つのデータセット間のピアソンの相関係数であり、-1(完全な負の相関)から1(完全な正の相関)までの値をとります。相関係数が0の場合、2つのデータセット間には直線的な関連性がないとされます。

サンプルで学習1

以下のような2つのデータセットがあると仮定しましょう。これらは例えば、ある商品の販売数と広告費の関係を示していると考えることができます。

販売数広告費
1001000
2001200
3001500
4002000
5002500
6003000
7003300
8003500
9003550

このデータセットを元に、販売数と広告費の間のピアソンの相関係数を求めるために、ExcelのCORREL関数を使います。仮に販売数がA列、広告費がB列に入っているとすると、次のように計算式を書くことができます。

=CORREL(A2:A10, B2:B10)

これは、A2からA10までの範囲(販売数)とB2からB10までの範囲(広告費)の間のピアソンの相関係数を計算します(0.985)。

実行結果として得られる値が1に近い場合、それは販売数と広告費との間に強い正の相関があることを示します。つまり、広告費が増えると販売数も増える可能性が高いということです。このようにCORREL関数は、二つの変数間の相関の強さと方向を調べるのに役立ちます。

サンプルで学習2

以下のような2つのデータセットを考えてみましょう。これらは例えば、ある人の年齢とその人が使用するスマートフォンの時間を示していると考えることができます。

年齢スマートフォン利用時間(分)
15120
20130
25160
30110
3580
4080
4560
5060
5570

このデータセットを元に、年齢とスマートフォンの利用時間の間のピアソンの相関係数を求めるために、ExcelのCORREL関数を使います。仮に年齢がA列、スマートフォンの利用時間がB列に入っているとすると、次のように計算式を書くことができます。

=CORREL(A2:A10, B2:B10)

これは、A2からA10までの範囲(年齢)とB2からB10までの範囲(スマートフォンの利用時間)の間のピアソンの相関係数を計算します。

このデータセットの場合、実行結果として得られる値は-1に近い負の数になります(-0.835程度)。これは年齢とスマートフォンの利用時間との間に強い負の相関があることを示します。つまり、年齢が上がるとスマートフォンの利用時間が減るという関係が見られるということです。