横浜国立大学理工学部建築都市環境系学科卒
一級鉄筋技能士
Power Queryは、Excelのデータ分析と前処理を効率化し、柔軟性を高めるための強力なツールです。
データをより効果的に活用する方法を学んでいきましょう。
この記事では、Power Queryを使ったデータの前処理について詳しく探求し、その利点と具体的な手法(結合)を紹介します。
目次
データの前処理をノーコードで実装する
PowerQueryを使えばデータの前処理をノーコードで実装することができます。
前処理の流れを確認していきましょう。
「データ」タブの「テーブル又は範囲から」でパワークエリにデータを取り込む
テーブル化したデータをパワークエリに読み込みましょう。
取り込むデータのセルをどれでも良いので選択し、「データ」タブの「テーブルまたは範囲から」で読み込みます。
PowerQueryエディターが自動的に立上り、テーブルデータをPowerQueryに読み込むことができました。
保存して閉じると、PowerQueryに読み込んだものが新しいシートとして追加されます。
PowerQueryエディターを開くときは、「データ」タブの「データの取得」から「PowerQueryエディターの起動」を選択して開きます。
PowerQueryではノーコードでデータの前処理ができる
Pythonを使用した前処理はどうしてもプログラミングの知識が必要ですが、PowerQueryを使用すればデータの前処理をノーコードで簡単に行うことができます。
前処理には色々な種類があります。
欠損値の処理、エンコーディング(文字列、整数など)、結合などです。
結合については、縦結合、横結合(内部、左外部、右外部、外部)とたくさんの結合方法があるので混乱してしまいますが、少しずつ慣れていけば大丈夫です。
PowerQueryを使用すれば、結合もノーコードで簡単に行うことができます。
「適用したステップ」で前処理の内容を確認・変更が可能
前処理した結果をノーコードで確認、変更することができる点も、PowerQueryの特徴の1つです。
このように、PowerQueryを使用することで多くの前処理を簡単に、ノーコードで実装できる点が最大のメリットです。
具体的なデータの前処理について
PowerQueryエディターを使うことでデータを色々な形で前処理することができます。
具体的に詳しく見ていきましょう。
各データの合計値を左外部結合する
左外部結合は、「2つのテーブルを結合する際に、左側のテーブルのすべての行と、右側のテーブルの一致する行を取得する結合方法」です。
…よくわかりませんね。
図を見てイメージすると少し分かりやすいかもしれませんが、具体的にご自身でやってみるとすぐ身に付きます。
ここでは、テーブル2にテーブル3の「材料費」「労務費」「外注費」「その他」の合計値を追加してみます。
テーブル2とテーブル3の「工事名」の列を選択(選択すると色が変化します)し、左外部結合を選択します。
テーブル2の外部にテーブル3が追加されたことを確認します。
追加されたテーブル3を展開して、追加するデータを選択します。
この際に、「集計」ボタンを選択すれば各列の合計値を集計して表示することができます。
データを集計する時は、データ型に意識して集計するようにしましょう。
見た目上は数字であっても、データ型が文字列(テキスト)になっていると合計値を集計することができずに、値の個数のカウントしかできません。
データ型が数値(整数型)になっていれば、正しく合計値(Σ)を計算することができます。
まずは左外部結合で練習しよう
データ型が文字列(テキスト)になっていると合計値を集計できない
データ型が整数型になっていることを確認し、値を集計する
まとめ
この記事では、PowerQueryを使ったデータの前処理について具体例を用いて解説しました。
Pythonなどのプログラミング言語を使用したデータの前処理方法は、ハードルが高いかもしれませんが、PowerQueryを使えばノーコードで前処理を実装することができます。
前処理の方法としては、データ型を意識しつつ、左外部結合をまずは練習してみましょう。
最初はうまくできないかもしれませんが、何回も練習すると必ず自身が付いてきます。