3章: データのクリーニング

3章: データのクリーニング

データのクリーニングは、データ分析の前に行う重要なステップです。この章では、Power Queryを使用してデータのクリーニングを行う方法を学びます。以下のトピックをカバーします。

  • 空白の削除
  • データの置換と分割
  • エラー値の処理
  • 条件付き列の作成
  • 重複データの削除と一意な値の抽出

空白の削除

クエリエディタでは、テキストデータ内の不要な空白を簡単に削除できます。空白の削除は、以下の手順で行います。

  1. 空白を削除したい列を選択します。
  2. [変換] タブの [テキスト列] グループから、[空白の削除] を選択します。
  3. 適切なオプションを選択して、空白を削除します。例えば、[先頭と末尾の空白を削除] や [すべての空白を削除] など。

データの置換と分割

クエリエディタでは、データの置換や分割も容易に行えます。

データの置換

データの置換は、以下の手順で行います。

  1. データを置換したい列を選択します。
  2. [変換] タブの [テキスト列] グループから、[値の置換] を選択します。
  3. [検索する値] と [置換後の値] を入力し、[OK] をクリックします。

データの分割

データの分割は、以下の手順で行います。

  1. データを分割したい列を選択します。
  2. [変換] タブの [テキスト列] グループから、[列の分割] を選択します。
  3. 適切なオプションを選択し、データを分割します。例えば、[区切り記号] や [文字数] など。

エラー値の処理

データの中には、エラー値や無効な値が含まれることがあります。クエリエディタを使って、エラー値を簡単に処理できます。

  1. エラー値を含む列を選択します。
  2. [ホーム] タブの [削除] グループから、[エラーを削除] を選択します。これにより、エラー値を含む行が削除されます。
  3. または、[ホーム] タブの [変換] グループから、[エラーの置換] を選択して、エラー値を別の値に置き換えることができます。

条件付き列の作成

クエリエディタを使って、条件に基づいて新しい列を作成することができます。条件付き列の作成は以下の手順で行います。

  1. [追加列] タブをクリックし、[条件付き列] を選択します。
  2. 新しい列の名前を入力し、条件を設定します。
  3. 条件に応じて返す値を指定し、[OK] をクリックします。

重複データの削除と一意な値の抽出

クエリエディタを使って、重複データを削除したり、一意な値を抽出したりすることができます。

重複データの削除

重複データの削除は以下の手順で行います。

  1. 重複を削除したい列を選択します。
  2. [ホーム] タブの [削除] グループから、[重複を削除] を選択します。これにより、選択した列の重複した値が削除されます。

一意な値の抽出

一意な値の抽出は以下の手順で行います。

  1. 一意な値を抽出したい列を選択します。
  2. [ホーム] タブの [保留] グループから、[一意な値を保留] を選択します。これにより、選択した列の一意な値のみが保持されます。

これで、3章のデータクリーニングに関する解説が終わりました。この章で学んだ技術を使用することで、データの品質を向上させ、データ分析に適した形に整形できます。

3章のまとめ

この章では、Power Queryを使用してデータのクリーニングを行う方法を学びました。具体的には以下のトピックを取り上げました。

  • 空白の削除
  • データの置換と分割
  • エラー値の処理
  • 条件付き列の作成
  • 重複データの削除と一意な値の抽出

これらの技術を活用して、データをより適切な形に整え、データ分析に向けた準備を行いましょう。

3章: データのクリーニング 演習問題

以下に示す演習問題を解いて、この章で学んだ内容を確認しましょう。

    1. 次の表のデータをクエリエディタにインポートし、氏名の列で先頭と末尾の空白を削除してください。
      氏名年齢
      山田 太郎28
      鈴木 次郎35
    2. 次の表のデータをクエリエディタにインポートし、氏名列の「山田」を「山本」に置換してください。
      氏名年齢
      山田太郎28
      山田次郎35
    3. 次の表のデータをクエリエディタにインポートし、エラー値を含む行を削除してください。
      氏名年齢
      山田太郎28
      鈴木次郎Error
    4. 次の表のデータをクエリエディタにインポートし、年齢が30歳以上の場合、「シニア」、それ以外の場合、「ジュニア」の値を持つ新しい列「カテゴリ」を作成してください。
      氏名年齢
      山田太郎28
      鈴木次郎35
  • 次の表のデータをクエリエディタにインポートし、重複するデータを削除してください。
    氏名
    山田太郎
    鈴木次郎
    山田太郎

これらの演習問題を解くことで、データのクリーニングに関するスキルをより実践的に習得できます。学んだ内容を活用して、データの品質を向上させ、分析に適した形に整形していきましょう。