スタージェスの公式の概要
スタージェスの公式は、データの分布を視覚化する際に最適なビン数(階級数)を推定するための公式です。この公式は k = 1 + 3.322 log(n)
の形をしており、ここでkはビンの数で、nはデータの総数です。
たとえば、データが100個の値からなる場合、スタージェスの公式を用いてビン数を計算してみましょう。
- まず、データの総数の対数を計算します:log(100) = 2
- 次に、この結果に3.322を掛けます:3.322 * 2 = 6.644
- 最後に、1を加えます:1 + 6.644 = 7.644
計算結果は7.644ですが、ビンの数は整数でなければならないので、この値を四捨五入して8とします。したがって、このデータセットのビンの最適な数は8と推定されます。
スタージェスの公式をエクセルで処理する手順
エクセルでこの計算を行うには以下の手順を踏みます:
- まず、セルA1にデータの総数(この例では100)を入力します。
- 次に、セルB1に次の公式を入力します:
=1+3.322*LOG10(A1)
。この公式はスタージェスの公式をエクセルの形式に変換したものです。LOG10関数は10を底とする対数を計算します。 - セルB1の結果は上記の計算と同じく7.644となります。この値を四捨五入するには、セルC1に
=ROUND(B1, 0)
と入力します。この公式はB1セルの値を最も近い整数に四捨五入します。
以上の手順で、エクセルを使用してスタージェスの公式によりビン数を計算することができます。
スタージェスの公式に関する経緯
スタージェスの公式は、1939年にアメリカの統計学者ハーバート・スタージェスによって提案されました。スタージェスは、統計データの集団分布をヒストグラムで視覚化するための基準として、この公式を開発しました。
統計データの分布を視覚化する際、どのようにデータをビンに分けるか(つまり、どのように階級を設定するか)は、ヒストグラムの形状と解釈に大きく影響します。しかし、このビンの数(階級数)をどのように設定すべきかについては、一般的なガイドラインがなかったため、スタージェスは、データの量(サンプルサイズ)に基づいて最適なビン数を推定する方法を提案しました。これがスタージェスの公式です。
この公式は、ビンの数がデータ量の対数関数であるという基本的な仮設に基づいています。つまり、データ量が増えるにつれてビンの数も増えるが、それが線形ではなく対数的に増加するという考え方です。これにより、データ量が大きい場合でも、ビンの数が適度に制限され、ヒストグラムが過度に詳細すぎることを防ぐことができます。