PR

ExcelでWebサイトのデータを取得する(スクレイピング)

Power Query応用

インターネットには色んな情報があります。お料理レシピとか、天候とか為替、株価とか、ニュースとか。無数のWebサイトがありますよね。

ExcelでWebサイトの情報が取得できたらどうでしょうか?わざわざブラウザを立ち上げて、Webサイトを閲覧しなくとも、Excelで今週の天気予報が見れたり、過去のデータ分析データを取り込むことが出来ます。

Power Queryを使って、Webサイトのデータを取得することが出来ます。

Webサイトのデータを取得することをスクレイピングと呼んだりします。このスクレイピングは、取得元のシステム負荷がかかり、安定したサービス提供に支障をきたす恐れがあるため、禁止しているWebサイトがあります。使用する場合は、利用規約を確認しましょう。

サンプルとして気象庁のWebサイトを取得してみる

気象庁から2023年の東京都の気温を取得してみます。

気象庁のWebサイトを開いたら、「各種データ・資料」をクリックします。

「気象」の中にある、「過去の気象データ検索」をクリックします。

「都道府県選択」をクリックします。

「東京」をクリックします。

「東京」をクリックします。

「2023年」をクリックし、「2023年の月ごとの値を表示」をクリックします。

2023年東京の気象データを表示することが出来ました。

URLは「https://www.data.jma.go.jp/stats/etrn/view/monthly_s1.php?prec_no=44&block_no=47662&year=2023&month=&day=&view=」になります。

Power Queryを使って、このページの表から気温を取得します。

Power QueryでWebからデータ取得する

以下の手順でWebからデータを取得します。

URLにデータ取得する「https://www.data.jma.go.jp/stats/etrn/view/monthly_s1.php?prec_no=44&block_no=47662&year=2023&month=&day=&view=」を入力し、OKをクリックします。

気象庁のWebサイトへの接続を確立します。

表形式になっているページであれば、Power Queryが自動的にテーブルデータとして認識してくれます。HTMLのテーブル「東京(東京都)・・・」をクリックし、「データの変換」をクリックします。

データが取得できました。ここから気温だけ取得するようデータ加工します。

データを加工する

不要な列を削除する

気温の日平均、最高、最低だけ残すようにします。不要な列を選択した状態で右クリックし、「列の削除」をクリックします。

列名を変更する

気温列の列名だけみても、どれが日平均、最高、最低か分かりません。そこで、列名を変更します。

列を右クリックし、「名前の変更」をクリックします。※列をダブルクリックでも同じ挙動になります。

列名が編集モードになり、列名が変更できます。

以下のように、列名を変更します。

不要な行を削除する

行にnullだったり、平均、最高などの文字が入っており、このままではデータとして扱いづらいです。不要な行は削除しましょう。

月列の▼アイコンをクリックし、(null)のチェックを外します。

不要な行が削除されました。

データ型を変更する

気温は数字ですが、Power Queryのデータ型ではテキスト型で定義されています。分析データとして扱いづらいため、データ型を変更します。

以下手順で気温列3つを選択し、データ型を10進数に変更します。

データ型が10進数に変更されました。

取得した結果を確認する

データ加工が終わったら、「閉じて読み込む」をクリックします。

以下の表が出力されます。今回は2023年の東京の気温を取得しましたが、他の気象データもぜひ試してみてください。

Excel/Power Queryのデータ加工相談サービス

Excel/Power Queryのデータ加工で悩んでおり、ネットや本で調べても解決しない場合は、一度ご相談下さい。

やりたいことをヒアリングして解決までサポートいたします。

ご相談内容の例
  • 前任者が作ったExcelファイルの数式等が意味不明で困っている
  • Power Queryを使ってExcelでデータ加工を行いたいが、うまく使いこなせない
  • 手作業が多く、業務効率化を行いたいが、どう進めていいか分からない

ココナラでご相談を受け付けております。ココナラの会員登録が必要になります。

Power Queryの学習に役立つおすすめ本
初心者向け 初心者~中級者向け 中級者~上級者向け
プロフィール
たがみ

IT業界20年程度のシステムエンジニアです。
構築したシステムのデータ検証をExcelで実施することが多く、検証作業の効率化を模索しているときにPower Queryと出会いました。
Excel業務効率化の手助けになればと当ブログを解説しました。
今ではデータ分析でPower BIを活用しており、Power BI、Excelの両方でPower Queryを活用しています。

たがみをフォローする
Power Query応用
シェアする
たがみをフォローする
タイトルとURLをコピーしました