大きなCSVファイルでBigQueryの読み込みが失敗する

GoogleのBigQueryで大きなファイルを読み込む際に問題が発生しています。問題は、私が1000行未満のファイルをロードしているときに、エラーなしでロードしているときです。しかし、10000行以上のファイルをロードしているときにロードエラーが発生しています。大きなCSVファイルでBigQueryの読み込みが失敗する

Redshiftからデータをエクスポートし、それをBigQueryに読み込むことです。コマンドを「アン」私は赤方偏移のほぼすべてのオプションを使用しているが、BigQueryのは、大きなファイルのファイル形式を理解していないように思える：

1. Using "Unload" command, I am exporting Redshift table (having more than 160 columns) as a CSV file into S3 
2. Transferring data to Google Cloud 
3. Creating a table in BigQuery by specifying data source as Google Cloud bucket.

注：ここでは、私は仕事（ステップ）をやっている方法です。

誰でも問題が発生する可能性がありますか？

出典

2016-08-10 andy

@ josh-haberman：あなたは私の問題を見ていただけますか？ – andy

RedshiftからBigQueryにエクスポートする作業があるので、このプロセスを自動化するツールを試しましたか？彼らのREADMEから

https://github.com/iconara/bigshift

：赤方偏移のUNLOADによって生成

CSVは何かかわらあなたはどちらかの端に指定した内容オプションのBigQueryにロードすることはできません。 Redshiftはのフィールドをすべて引用符で囲むこともできますが、BigQueryでは文字列以外のフィールドを引用符で囲まないようにしています（）。ブール値とタイムスタンプの形式は互換性がありません。引用された項目の引用符は異なる方法でエスケープされると期待しており、名前はです。

これは、BigShiftが行うことの多くは、RedShiftからダンプされたデータがBigQueryと互換性があることを確認することを意味します。これを行うために、はテーブルスキーマを読み取り、異なるデータ型を変換しますが、のデータはダンプされます。引用符はエスケープされ、タイムスタンプはフォーマットされているので、がオンになります。

出典

2016-08-11 01:40:47

ええと、私はそれを試してみました..しかし、それはS3の負荷後に失敗しているようだ。 – andy

@theo：あなたは一見をしていただけますか？ – andy

は次のとおりです： 'bigshift --gcp-credentials bq_cred.json --aws-credentials aws_cred.json --rs-credentials rd_cred.json --rs-databaseカスタムデータ--rs-table temp_data --bq-データセットwedata -bq-table temp_data -s3-bucket bigquery-ds --cs-bucket bigquery-ds -max-bad-records 0 --stepsアンロード、転送、ロード、クリーンアップ--no-compression偽 ' – andy

大きなCSVファイルでBigQueryの読み込みが失敗する

答えて

関連する問題