スタージェスの公式

スタージェスの公式の概要

スタージェスの公式は、データの分布を視覚化する際に最適なビン数(階級数)を推定するための公式です。この公式は k = 1 + 3.322 log(n) の形をしており、ここでkはビンの数で、nはデータの総数です。

たとえば、データが100個の値からなる場合、スタージェスの公式を用いてビン数を計算してみましょう。

  1. まず、データの総数の対数を計算します:log(100) = 2
  2. 次に、この結果に3.322を掛けます:3.322 * 2 = 6.644
  3. 最後に、1を加えます:1 + 6.644 = 7.644

計算結果は7.644ですが、ビンの数は整数でなければならないので、この値を四捨五入して8とします。したがって、このデータセットのビンの最適な数は8と推定されます。

スタージェスの公式をエクセルで処理する手順

エクセルでこの計算を行うには以下の手順を踏みます:

  1. まず、セルA1にデータの総数(この例では100)を入力します。
  2. 次に、セルB1に次の公式を入力します:=1+3.322*LOG10(A1)。この公式はスタージェスの公式をエクセルの形式に変換したものです。LOG10関数は10を底とする対数を計算します。
  3. セルB1の結果は上記の計算と同じく7.644となります。この値を四捨五入するには、セルC1に=ROUND(B1, 0)と入力します。この公式はB1セルの値を最も近い整数に四捨五入します。

以上の手順で、エクセルを使用してスタージェスの公式によりビン数を計算することができます。

スタージェスの公式に関する経緯

スタージェスの公式は、1939年にアメリカの統計学者ハーバート・スタージェスによって提案されました。スタージェスは、統計データの集団分布をヒストグラムで視覚化するための基準として、この公式を開発しました。

統計データの分布を視覚化する際、どのようにデータをビンに分けるか(つまり、どのように階級を設定するか)は、ヒストグラムの形状と解釈に大きく影響します。しかし、このビンの数(階級数)をどのように設定すべきかについては、一般的なガイドラインがなかったため、スタージェスは、データの量(サンプルサイズ)に基づいて最適なビン数を推定する方法を提案しました。これがスタージェスの公式です。

この公式は、ビンの数がデータ量の対数関数であるという基本的な仮設に基づいています。つまり、データ量が増えるにつれてビンの数も増えるが、それが線形ではなく対数的に増加するという考え方です。これにより、データ量が大きい場合でも、ビンの数が適度に制限され、ヒストグラムが過度に詳細すぎることを防ぐことができます。