分散

「分散」の概要

統計学における「分散」は、データセットのばらつきや散らばり具合を数値で表現したものです。データの値が平均からどれだけ離れているか、つまりデータがどれほど分散しているかを示します。

具体的には、分散は以下のステップで計算します:

  1. まず、各データポイントからデータ全体の平均を引きます。これにより、各データポイントが平均からどれだけ離れているかを計算します。
  2. 次に、この差を二乗します。これにより、すべての差が正の値になり、また、平均から大きく離れた値はより重視されます(二乗すると大きな値がより大きくなるため)。
  3. 最後に、これらの二乗した差の平均を取ります。

このようにして求められた値が「分散」で、この値が大きいほどデータは平均から大きく散らばっていると言えます。逆に、この値が小さいほどデータは平均値の近くに集まっていると言えます。

分散は、データの特性を理解するための重要な基本的な統計量の一つです。ただし、分散は元のデータと同じ単位の二乗の単位で表されるため、元のデータと直接的に比較するのは難しいという特徴もあります。そのため、分散の平方根を取った「標準偏差」がよく使われます。標準偏差は元のデータと同じ単位で表され、データの散らばり具合を直感的に理解しやすいという特性があります。

Excelでの「分散」の取り扱い:VAR.PとVAR.S

Excelでは「VAR.P」または「VAR.S」関数を用いて分散を計算することができます。どちらを使うかは分散を計算する目的によります。すなわち、分散を計算するデータが母集団全体を表しているか、あるいは母集団から抽出した標本を表しているかによります。

  1. VAR.P」関数は母集団の分散を計算します。母集団とは、調査や分析の対象となる全体の集まりを指します。例えば、全学生のテストのスコアなどが該当します。
  2. 一方、「VAR.S」関数は標本の分散を計算します。標本とは、母集団の一部をランダムに選び出したものです。例えば、模擬試験を受けた数十万人の学生の中からランダムに選んだ1,000人の学生のテストのスコアなどが該当します。

これらの関数を使うためには、次のような形で関数を記述します:

=VAR.P(範囲)

または、

=VAR.S(範囲)

ここで、「範囲」は分散を計算したいデータのセル範囲を指します。例えば、A1からA10までのセルにデータがある場合、次のようになります:

=VAR.P(A1:A10)

または、

=VAR.S(A1:A10)

これにより、指定した範囲のデータの分散を計算することができます。ただし、Excelの分散関数は数値データだけを扱うため、データ範囲に数値以外のデータ(例えばテキストや空白セル)が含まれている場合、それらは無視されます。