確率密度

まずは「確率変数」の確認

まずはじめに「確率変数」について確認します。これは実験や調査、観察などによって得られる結果の数値化したものを指します。この確率変数には、「離散確率変数」と「連続確率変数」の2つのタイプがあります。

離散確率変数は、限られた数の値、または無限でも数えられる値を取る確率変数です。例えば、サイコロを投げたときの出目は1から6までの整数値を取るため、これは離散確率変数です。各目が出る確率は1/6で、これを「確率質量関数」を使って表現します。

一方、連続確率変数は無限の数の値を取る可能性がある確率変数で、例えば人の身長のような実数全体またはその一部を取ります。身長がちょうど170cmとなる確率を計算しようとすると、その確率はほぼ0となります。なぜなら、170cmから170.1cmの間でも無限の数の値があるため、1つの具体的な値が取られる確率は非常に小さくなります。

確率密度の概要

そこで連続確率変数の場合、個々の値の確率ではなく、「身長が170cm以上180cm未満である確率」のような、ある範囲内に値が含まれる確率を考えます。そして、これを表現するのが「確率密度関数」です。例えば、人の身長を連続確率変数として、確率密度関数が既知の場合、「身長が170cmから180cmの人が全体の何パーセントいるか?」という問いに答えることができます。これを計算するためには、確率密度関数を170cmから180cmまで積分することで求められます。

確率密度関数自体の値は確率ではありません。それはある範囲の値が発生する確率を計算するための「密度」で、その範囲における確率密度関数の下の面積(つまり、積分)がその範囲に含まれる値の確率を表します。

このように、確率密度は、特定の範囲に確率変数の値が含まれる確率を理解するための重要な概念です。身長のような連続的なデータを扱う際に、そのデータがどのように分布しているのか、特定の範囲の値がどれくらいの確率で発生するのかを理解するために、確率密度は欠かせません。

具体的な確率密度関数である「正規分布」と「指数分布」について詳しく見ていきましょう。

正規分布と確率密度

まずは「正規分布」から始めましょう。正規分布は、統計学で最もよく用いられる確率分布の一つで、その形状は「ベルカーブ」や「ガウス曲線」とも呼ばれます。この分布は二つのパラメータ、平均(μ)と標準偏差(σ)によって特徴づけられます。平均は分布の中心を表し、標準偏差は分布の広がり(データのばらつき)を示します。

正規分布の確率密度関数は、特定の範囲の値が得られる確率を計算するのに用いられます。例えば、正規分布に従うテストスコアの場合、「スコアが60以上70以下である確率は何か?」という問いに答えることができます。これは、確率密度関数を60から70まで積分することで求められます。

指数分布と確率密度

次に、「指数分布」について見てみましょう。指数分布は、ある事象が次に発生するまでの待ち時間をモデル化したもので、平均的な発生率(λ)によって特徴づけられます。例えば、バス停でバスが来るまでの待ち時間や、電球が切れるまでの時間など、ある事象が独立にランダムに発生する状況を表すのによく用いられます。

指数分布の確率密度関数もまた、特定の範囲の値が得られる確率を計算するのに用いられます。例えば、「次のバスが来るまでに10分以上15分以下待つ確率は何か?」という問いに答えることができます。これも、確率密度関数を10から15まで積分することで求められます。

このように、確率密度関数は、データがどのように分布しているか、特定の範囲の値がどれだけの確率で観測されるかを理解するのに非常に重要なツールとなります。それぞれの確率密度関数が表す現象を理解し、適切な確率分布を選択することで、より洗練されたデータ分析や予測が可能となります。

Excelでの確率密度の取り扱い

エクセルでは、確率密度関数(pdf)の値を計算するための組み込みの関数が用意されています。これらの関数は特定の確率分布(正規分布、指数分布、二項分布など)に対して使用できます。

  • NORM.DIST関数:正規分布の確率密度関数の値を計算します。NORM.DIST(x, 平均, 標準偏差, FALSE)の形式で使用します。ここで、xは確率変数の値、平均は正規分布の平均、標準偏差は正規分布の標準偏差で、FALSEは確率密度関数を求めるための引数です。
  • EXPONDIST関数:指数分布の確率密度関数の値を計算します。EXPONDIST(x, λ, FALSE)の形式で使用します。ここで、xは確率変数の値、λは分布のパラメータで、FALSEは確率密度関数を求めるための引数です。