サンプリング(分析ツール)

1. サンプリングとは?

サンプリングとは、大きなデータセットからランダムに一部のデータを抽出することを指します。この一部を「サンプル」といい、全体のデータを「母集団」と呼びます。Excelの分析ツールには、このサンプリングを手軽に行うための「サンプリング」ツールが用意されています。

2. Excelの「サンプリング」ツールの使い方

Excelの「サンプリング」ツールは、「データ」タブの「分析」グループにある「データ分析」をクリックすると表示される「データ分析」ダイアログボックスから選択できます。

  • 入力範囲: まず、サンプリングを行いたいデータ範囲を選択します。
  • ラベル: ラベルが含まれている場合は、このチェックボックスをオンにします。
  • 標本の採取方法: 「周期変化」または「ランダム」を選択します。周期変化は一定の間隔でデータを抽出し、ランダムはランダムにデータを抽出します。
    • 周期(周期変化の場合): 抽出するデータの間隔を指定します。例えば、周期を6に設定すると、6行ごとにデータが選ばれます(半年ごとなど)。
    • データの個数(ランダムの場合): 抽出するデータの個数を指定します。

3. 「サンプリング」ツールの注意点

以下に、「サンプリング」ツールを使う際の注意点をいくつか挙げてみます。

  • 数値データのみを処理します: 「サンプリング」ツールは数値データのみを処理します。数値以外のデータが含まれている場合、前処理を行って数値に変換する必要があります。
  • 1つの列または行のデータのみを処理します: 「ラベル」オプションを使用している場合、1つの列または行のデータのみを処理します。複数の列または行のデータを一度に処理することはできません。
  • 同じデータが選択される可能性があります: 「ランダム」抽出を選択した場合、同じデータが複数回選択されることがあります。これは「復元抽出」と呼ばれ、一部の統計分析では重要な特性となります。
  • 抽出されるサンプルの数を適切に設定する: ランダムサンプリングを行う場合、抽出するサンプルの数を適切に設定することが重要です。抽出するサンプルの数が少なすぎると、結果として得られる統計値が元のデータを正確に反映しない可能性があります。一方、サンプル数が多すぎると、サンプリングの意味がなくなり、計算コストが増大します。

4.実習用データ

Excelへ下記の表をコピーし、B列のデータを使ってサンプリングを実施してみましょう。適当な数を抜き出してみましょう。

受験番号スコア
172
273
357
472
573
662
759
856
954
1060
1155
1262
1368
1456
1585
1659
1762
1875
1962
2072
2161
2257
2356
2458
2574
2659
2775
2869
2972
3045
3143
3276
3378
3477
3545
3659
3760
3835
3958
4074
4172
4273
4380
4461
4546
4666
4766
4846
4967
5060
5147
5243
5372
5475
5573
5669
5757
5883
5980
6064
6168
6250
6351
6475
6553
6663
6760
6860
6967
7076
7145
7259
7332
7477
7547
7659
7771
7852
7959
8095
8182
8244
8363
8476
8571
8656
8759
8889
8968
9061
9149
9289
9370
9454
9560
9672
9767
9891
9950
10060