外れ値

1. 序章:外れ値とは何か

外れ値とは、データセット内の他の値から大幅に離れた値のことを指します。たとえば、クラスのテストの点数が大半が70〜90点である中で、1つだけ10点のデータがあった場合、その10点は外れ値として扱われます。外れ値はデータ分析に大きな影響を与える可能性があり、その存在に気づき、適切に取り扱うことが重要です。

2. エクセルと統計の基礎

Excelはデータ分析に広く使われるツールで、統計分析に必要な多くの関数を提供しています。ここでは、平均値や中央値、分散、標準偏差などの基本的な統計的指標をExcelでどのように計算するかを説明します。例として次のようなテストのスコアのデータセットを考えてみましょう。

生徒名テストスコア2学期出席日数
生徒A8570
生徒B9075
生徒C7880
生徒D9278
生徒E8882
生徒F1565
生徒G8370
生徒H8776
生徒I9078
生徒J8579
生徒K8881
生徒L9183
生徒M8474
生徒N8977
生徒O8575
生徒P9080
生徒Q8882
生徒R8781
生徒S9275
生徒T8472
生徒U8673
生徒V8979
生徒W8880
生徒X9083
生徒Y9181
生徒Z9582

ここで、「生徒F」のテストスコアは他の生徒から大幅に外れているため、これを外れ値として取り扱います。次の章では、これらのデータを使って、外れ値の見つけ方と取り扱い方を学びます。

3. エクセルでの外れ値の見つけ方

Excelにはデータを視覚的に確認するための多くのツールがあります。その中でも、散布図、ヒストグラム、箱ひげ図は外れ値を発見するのに特に有用です。以下に、これらの視覚化手法を用いて外れ値を見つける方法を示します。

3.1 散布図

散布図は、2つの数値変数間の関係を視覚化するのに有用です。外れ値はグラフ上で他のデータポイントから離れた位置に表示されるため、散布図は外れ値の存在を確認するのに役立ちます。Excelで散布図を作成するには、「挿入」タブの「グラフ」から「散布図」を選択します。ここでは、テストスコアと生徒の出席日数(B1:C26)をプロットしてみると良いでしょう。

3.2 ヒストグラム

ヒストグラムは、データの分布を視覚化するのに有用なツールです。ヒストグラムを使用すると、データがどのように分布しているか、つまり、値が一般的にどの範囲に集まっているかを理解することができます。外れ値は通常、ヒストグラムの端に少数のバーとして表示されます。Excelでは、「挿入」タブの「グラフ」から「ヒストグラム」を選択します。今回の例では、B2:B26セル範囲のテストスコアを使用してヒストグラムを作成します。「ビンの幅」は「5程度」にするとわかりやすいでしょう。

3.3 箱ひげ図(ボックスプロット)

箱ひげ図(またはボックスプロット)は、データの分位数(四分位数)を視覚化し、外れ値を直観的に識別できるようにするのに役立ちます。箱ひげ図では、箱の上部と下部がそれぞれ第3四分位数(上側四分位数)と第1四分位数(下側四分位数)を表し、箱の中央のラインは中央値(第2四分位数)を示します。ひげはデータの範囲を示し、点は外れ値を示すことが多いです。Excelの「挿入」タブの「グラフ」から「箱ひげ図」を選択します。B2:B26セル範囲のテストスコアを使用して箱ひげ図を作成します。

4. エクセルでの外れ値の取り扱い

外れ値の取り扱い方は、データの性質や分析の目的によります。一般的には、外れ値を単純に削除するか、適切な値に置き換えるか(修正するか)のどちらかを選択します。ここでは、外れ値を見つけ、それを平均値または中央値に置き換える基本的な手順を示します。Excelの「条件付き書式」機能を用いて、外れ値をハイライトし、その後、適切な値に修正します。

エクセルの機能の1つである条件付き書式を使用して、外れ値を視覚的に認識することができます。以下に、条件付き書式を用いて表中の外れ値を見つける手順を示します。

手順1: 外れ値の閾値を計算する

四分位数を計算することで外れ値を観測できるようになります。

テストスコアの第一四分位数(Q1)と第三四分位数(Q3)を計算することにより、外れ値の範囲を正確に特定することができます。四分位数は、=QUARTILE.INC関数を使って計算できます。例えば、第一四分位数(Q1)は=QUARTILE.INC(B2:B27,1)、第三四分位数(Q3)は=QUARTILE.INC(B2:B27,3)となります。

次に、四分位範囲(IQR)を計算します。これはQ3とQ1の差分で、=Q3セル-Q1セルで求めることができます。

最後に、外れ値の範囲を計算します。これは、Q1から1.5IQRを引いた値と、Q3から1.5IQRを足した値の間になります。これより小さい値、またはこれより大きい値は外れ値とみなされます。

手順2: 条件付き書式を適用する

条件付き書式を適用するには、テストスコアのセル範囲(B2:B27)を選択し、メニューバーの[条件付き書式] > [新しいルール]を選択します。

次に、「指定の値を含むセルだけを書式設定」を選択し、「セルの値」「次の値より小さい」を選択します。次に、上で計算した外れ値の下限を入力します。

同様に、「指定の値を含むセルだけを書式設定」を「追加」で選択し、「「セルの値」「次の値より大きい」を選択し、上で計算した外れ値の上限を入力します。

それぞれのルールについて、[書式]ボタンをクリックし、適用したい書式(例えば、赤い背景色)を選択します。

手順3: 外れ値を視覚的に確認する

以上の手順を経ると、テストスコア列の中で、外れ値に該当するセルが選択した書式(例:赤い背景色)で強調表示されます。これにより、一目で外れ値を確認することが可能になります。

このようにして、エクセルの条件付き書式を用いることで、外れ値を素早く、かつ視覚的に特定することができます。外れ値が特定された後は、それらがデータに与える影響を考慮し、必要に応じて適切な対応を取ることが重要です。