BigQueryのデータのバッチをDatalabに読み込む

BigQueryテーブルに大きなデータセット（〜45M行、13Gbのデータ）があります。 Google Datalab Notebookでそのデータを処理して、Datalabセルのmatplotlibで後でデータを視覚化するためのパンダの基本統計を作成したいと思います。私はパンダのDataframeにすべてのデータセットをロードしようとするのは良い考えではないと思います（少なくとも私はRAMの問題を抱えています）。BigQueryのデータのバッチをDatalabに読み込む

BigQueryのデータをバッチ（たとえば10K行）で読み込んでDatalabで消費することはできますか？

ありがとうございます！

出典

2017-04-10 Alexander Usoltsev

データを視覚化することを目的としている場合は、小さなバッチを読み込むよりもサンプリングが良いでしょうか？

import google.datalab.bigquery as bq 
df = bq.Query(sql='SELECT image_url, label FROM coast.train WHERE rand() < 0.01').execute().result().to_dataframe()

あるいは、使用便利クラス：

from google.datalab.ml import BigQueryDataSet 
sampled_df = BigQueryDataSet(table='myds.mytable').sample(1000)

出典

2017-04-11 00:03:16

@BradleyJiangをサンプリングしていただきありがとうございました。しかしここで私は時系列データを扱っており、サブサンプリングは時系列の線を破壊するでしょう。 BigQueryから一括読み取りする方法が見つからない場合は、元のCSVファイルに移動して、行を一括して読み込む必要があります。 –

それでは時間単位でソートし、ページ単位でクエリを実行する方法はありますか？ BQ Q = bq.Query（ '時間によってmyds.mytable順序SELECT * FROM'） T = q.execute（）。結果（） t.to_dataframe（START_ROW = PAGE_START、としてインポートgoogle.datalab.bigquery max_rows = page_size） –

は、あなただけのテーブルを反復処理しようとしたことがあり

次のようなあなたのデータをサンプリングすることができますか？ Tableオブジェクトは、paged fetcherを使用してBigQueryテーブルからデータを取得するイテラブルであり、ある方法でストリーミングしています。ページサイズはデフォルトで1024です。

出典

2017-04-13 03:21:14 yelsayed

BigQueryのデータのバッチをDatalabに読み込む

答えて

関連する問題