参考サイト:
- BigQuery Storage API を使用して BigQuery データを pandas にダウンロードする
- Using BigQuery with Pandas
- Python Client for BigQuery Storage API
- 手順:
- BigQuery Storeage API を「有効にする」
- サービスアカウントを作成する
- BigQuery Storage APIの「認証情報を作成」をクリック
- BigQuery Storage APIの「必要な認証情報」をクリック
- サービスアカウント名を決めて入力
- ロールを選択(権限を選ぶ)
- キーのタイプを選択(json推奨)
- 「次へ」クリック
- jsonファイルがダウンロードされる
- 環境変数をローカルPCに設定する
2でダウンロードしたjsonファイルをローカルに置き、そのpathを環境変数化する。
環境変数名は、'GOOGLE_APPLICATION_CREDENTIALS' - notebookで利用するクライアントライブラリをインストールする
pip install --upgrade google-cloud-bigquery[bqstorage,pandas] - notebookでbigquery用ライブラリを呼び出して、クエリを叩くと、結果がpandas.dataframeに返ってくる。
- pythonでsql叩いたり、tableのデータをダウンロードしたい時は、bigquery.Client()インスタンスを生成して行う。
notebookでの実行例)
- ライブラリ、マジックコマンドの読み込みと環境変数の設定(環境変数もnotebook上で行っている)
- notebookからのクエリ1)
- notebookからのクエリ2)
(※ BigQuery上でクエリかけて、結果をテーブルとして保存したものをnotebookに落としたほうが早い。notebook上でクエリかけると時間がかかる・・・)
- BigQueryにあるtableデータをpd.DataFrameとしてダウンロード
0コメント