3章: データのクリーニング
データのクリーニングは、データ分析の前に行う重要なステップです。この章では、Power Queryを使用してデータのクリーニングを行う方法を学びます。以下のトピックをカバーします。
- 空白の削除
- データの置換と分割
- エラー値の処理
- 条件付き列の作成
- 重複データの削除と一意な値の抽出
空白の削除
クエリエディタでは、テキストデータ内の不要な空白を簡単に削除できます。空白の削除は、以下の手順で行います。
- 空白を削除したい列を選択します。
- [変換] タブの [テキスト列] グループから、[空白の削除] を選択します。
- 適切なオプションを選択して、空白を削除します。例えば、[先頭と末尾の空白を削除] や [すべての空白を削除] など。
データの置換と分割
クエリエディタでは、データの置換や分割も容易に行えます。
データの置換
データの置換は、以下の手順で行います。
- データを置換したい列を選択します。
- [変換] タブの [テキスト列] グループから、[値の置換] を選択します。
- [検索する値] と [置換後の値] を入力し、[OK] をクリックします。
データの分割
データの分割は、以下の手順で行います。
- データを分割したい列を選択します。
- [変換] タブの [テキスト列] グループから、[列の分割] を選択します。
- 適切なオプションを選択し、データを分割します。例えば、[区切り記号] や [文字数] など。
エラー値の処理
データの中には、エラー値や無効な値が含まれることがあります。クエリエディタを使って、エラー値を簡単に処理できます。
- エラー値を含む列を選択します。
- [ホーム] タブの [削除] グループから、[エラーを削除] を選択します。これにより、エラー値を含む行が削除されます。
- または、[ホーム] タブの [変換] グループから、[エラーの置換] を選択して、エラー値を別の値に置き換えることができます。
条件付き列の作成
クエリエディタを使って、条件に基づいて新しい列を作成することができます。条件付き列の作成は以下の手順で行います。
- [追加列] タブをクリックし、[条件付き列] を選択します。
- 新しい列の名前を入力し、条件を設定します。
- 条件に応じて返す値を指定し、[OK] をクリックします。
重複データの削除と一意な値の抽出
クエリエディタを使って、重複データを削除したり、一意な値を抽出したりすることができます。
重複データの削除
重複データの削除は以下の手順で行います。
- 重複を削除したい列を選択します。
- [ホーム] タブの [削除] グループから、[重複を削除] を選択します。これにより、選択した列の重複した値が削除されます。
一意な値の抽出
一意な値の抽出は以下の手順で行います。
- 一意な値を抽出したい列を選択します。
- [ホーム] タブの [保留] グループから、[一意な値を保留] を選択します。これにより、選択した列の一意な値のみが保持されます。
これで、3章のデータクリーニングに関する解説が終わりました。この章で学んだ技術を使用することで、データの品質を向上させ、データ分析に適した形に整形できます。
3章のまとめ
この章では、Power Queryを使用してデータのクリーニングを行う方法を学びました。具体的には以下のトピックを取り上げました。
- 空白の削除
- データの置換と分割
- エラー値の処理
- 条件付き列の作成
- 重複データの削除と一意な値の抽出
これらの技術を活用して、データをより適切な形に整え、データ分析に向けた準備を行いましょう。
3章: データのクリーニング 演習問題
以下に示す演習問題を解いて、この章で学んだ内容を確認しましょう。
- 次の表のデータをクエリエディタにインポートし、氏名の列で先頭と末尾の空白を削除してください。
氏名 年齢 山田 太郎 28 鈴木 次郎 35 - 次の表のデータをクエリエディタにインポートし、氏名列の「山田」を「山本」に置換してください。
氏名 年齢 山田太郎 28 山田次郎 35 - 次の表のデータをクエリエディタにインポートし、エラー値を含む行を削除してください。
氏名 年齢 山田太郎 28 鈴木次郎 Error - 次の表のデータをクエリエディタにインポートし、年齢が30歳以上の場合、「シニア」、それ以外の場合、「ジュニア」の値を持つ新しい列「カテゴリ」を作成してください。
氏名 年齢 山田太郎 28 鈴木次郎 35
- 次の表のデータをクエリエディタにインポートし、氏名の列で先頭と末尾の空白を削除してください。
- 次の表のデータをクエリエディタにインポートし、重複するデータを削除してください。
氏名 山田太郎 鈴木次郎 山田太郎
これらの演習問題を解くことで、データのクリーニングに関するスキルをより実践的に習得できます。学んだ内容を活用して、データの品質を向上させ、分析に適した形に整形していきましょう。