BigQueryテーブルに大きなデータセット(〜45M行、13Gbのデータ)があります。 Google Datalab Notebookでそのデータを処理して、Datalabセルのmatplotlibで後でデータを視覚化するためのパンダの基本統計を作成したいと思います。私はパンダのDataframeにすべてのデータセットをロードしようとするのは良い考えではないと思います(少なくとも私はRAMの問題を抱えています)。BigQueryのデータのバッチをDatalabに読み込む
BigQueryのデータをバッチ(たとえば10K行)で読み込んでDatalabで消費することはできますか?
ありがとうございます!
@BradleyJiangをサンプリングしていただきありがとうございました。しかしここで私は時系列データを扱っており、サブサンプリングは時系列の線を破壊するでしょう。 BigQueryから一括読み取りする方法が見つからない場合は、元のCSVファイルに移動して、行を一括して読み込む必要があります。 –
それでは時間単位でソートし、ページ単位でクエリを実行する方法はありますか? BQ Q = bq.Query( '時間によってmyds.mytable順序SELECT * FROM') T = q.execute()。結果() t.to_dataframe(START_ROW = PAGE_START、として インポートgoogle.datalab.bigquery max_rows = page_size) –