2016-08-10 9 views
2

GoogleのBigQueryで大きなファイルを読み込む際に問題が発生しています。問題は、私が1000行未満のファイルをロードしているときに、エラーなしでロードしているときです。しかし、10000行以上のファイルをロードしているときにロードエラーが発生しています。大きなCSVファイルでBigQueryの読み込みが失敗する

Redshiftからデータをエクスポートし、それをBigQueryに読み込むことです。コマンドを「アン」私は赤方偏移のほぼすべてのオプションを使用しているが、BigQueryのは、大きなファイルのファイル形式を理解していないように思える:

1. Using "Unload" command, I am exporting Redshift table (having more than 160 columns) as a CSV file into S3 
2. Transferring data to Google Cloud 
3. Creating a table in BigQuery by specifying data source as Google Cloud bucket. 

注:ここでは、私は仕事(ステップ)をやっている方法です。

誰でも問題が発生する可能性がありますか?

+0

@ josh-haberman:あなたは私の問題を見ていただけますか? – andy

答えて

2

RedshiftからBigQueryにエクスポートする作業があるので、このプロセスを自動化するツールを試しましたか?彼らのREADMEから

https://github.com/iconara/bigshift

:赤方偏移のUNLOADによって生成

CSVは何 かかわらあなたはどちらかの端に指定した内容オプションのBigQueryにロードすることはできません。 Redshiftは のフィールドをすべて引用符で囲むこともできますが、BigQueryでは文字列以外のフィールドを引用符で囲まないようにしています( )。ブール値とタイムスタンプの形式は互換性がありません。 引用された項目の引用符は異なる方法でエスケープされると期待しており、名前は です。

これは、BigShiftが行うことの多くは、RedShiftからダンプされたデータ がBigQueryと互換性があることを確認することを意味します。これを行うために、 はテーブルスキーマを読み取り、異なるデータ型を変換しますが、 のデータはダンプされます。引用符はエスケープされ、タイムスタンプはフォーマットされているので、 がオンになります。

+0

ええと、私はそれを試してみました..しかし、それはS3の負荷後に失敗しているようだ。 – andy

+0

@theo:あなたは一見をしていただけますか? – andy

+0

は次のとおりです: 'bigshift --gcp-credentials bq_cred.json --aws-credentials aws_cred.json --rs-credentials rd_cred.json --rs-databaseカスタムデータ--rs-table temp_data --bq-データセットwedata -bq-table temp_data -s3-bucket bigquery-ds --cs-bucket bigquery-ds -max-bad-records 0 --stepsアンロード、転送、ロード、クリーンアップ--no-compression偽 ' – andy

関連する問題