2017-05-25 14 views
0

bigqueryからのパブリックデータをdatalabに、そして次にpandasデータフレームに使用したいと思います。私はそれをどうやってやりますか?私はパンダへのアクセスを提供するように求めていますが、私は同意したときに、私はThis site can’t be reached localhost refused to connectを得る:bigqueryデータをdatalabにロード

import pandas as pd 

df=pd.io.gbq.read_gbq(""" 
SELECT pickup_datetime, dropoff_datetime 
FROM bigquery-public-data.new_york.tlc_yellow_trips_20* 
LIMIT 10 
""", project_id='bigquery-public-data') 

エラーBadRequest:

from google.cloud import bigquery 
client = bigquery.Client() 
QUERY = (
    'SELECT pickup_datetime, dropoff_datetime FROM `bigquery-public- 
    data.new_york.tlc_yellow_trips_20*`') --also tried without the ` and wildcard 
query = client.run_sync_query('%s LIMIT 100' % QUERY) 
query.timeout_ms = 10000 
query.run() 

エラー:私は3の異なるバージョンを試してみました。

%%bq query 
SELECT pickup_datetime, dropoff_datetime 
FROM bigquery-public-data.new_york.tlc_yellow_trips_20* 
LIMIT 10 

エラー:ちょうど私が間違っているのかにRunning

すべてのヘルプを保持いただければ幸いです。

答えて

0

上記のコードは、マイナーな変更を加えた後、gcloudを使用してローカルマシンにGoogleからアクセスできるようにした後、インストールして初期化してください。

gcloud initでgcloudを初期化した後にbqと入力してプロジェクトIDを取得します。

使用上の私の最初のコードで

client = bigquery.Client(project_id='your project id')

あなたがアクセスを許可されているので、第二のコードは自分のプロジェクトのIDを更新し、同様に動作するはずです。 limit関数を使用しないと、pandasがデータをデータフレームに変換するため、ロードに時間がかかることがあります。

3番目のコードも同様に動作します。

関連する問題