塞栓入力赤方偏移出力bigqueryデータ損失

-2

紅茶ツールを使用すると、redshiftからGoogle bigqueryをインポートします。is_skip_job_result_check属性を追加するとtrue：データが失われています（bigqueryのインポートにatほとんど1000の間違ったレコード）、それは私の設定です。 Ymlファイル。塞栓入力赤方偏移出力bigqueryデータ損失

type: redshift 
    host: ... 
    port: 5439 
    user: my_user 
    password: password 
    database: my_database 
    schema: public 
    fetch_rows: 1000

クエリ：中

SELECT * FROM app140681.events140681_5747135 WHERE TO_CHAR(event_time, 'YYYYMMDD') = '20160707'

アウト：

type: bigquery auth_method: json_key json_keyfile: content: | { "private_key_id": "...", "private_key": "-----BEGIN PRIVATE KEY------END PRIVATE KEY-----\n", "client_email": "..." } project: my_project dataset: testdataset auto_create_table: true table: test_redshift emplate_table: test_redshift_schema.json #schema_file: ./schema.json max_bad_records: 1000 abort_on_error: false compression: NONE is_skip_job_result_check: true job_status_polling_interval: 5 source_format: CSV "CSV" default_timezone: 'UTC'

出典

2016-08-28 wangmin

is_skip_job_result_checkがtrueの場合、embulk-出力のBigQueryは、BigQueryの負荷ジョブを待ってスキップ仕上げるembulk-output-bigqueryはもう何もできません。 is_skip_job_result_checkがfalseの場合、embulk-output-bigqueryはロードジョブの結果ステータスを取得し、自動的に必要なときに再試行します。

is_skip_job_result_check: trueでは、手動でBigQueryコンソールでembulkの読み込みジョブが中止されていないかどうかを確認し、必要に応じて実行中のembulkを再試行する必要があります。 BigQueryコンソールを確認してください。

出典

2016-08-30 04:12:26

「is_skip_job_result_check：false」でbigqueryへの読み込みに成功しても、常に（is_skip_job_result_check：true）データが失われることはありますが、プラグインに問題があると思われます。私に教えてください（私は作者です）。 –

1. is_skip_job_result_checkに設定されている場合：true、私は既にbiqeryログをチェックしていますが、エラーはありませんが、データは失われます（データはデータベースにコピーされないことがあります） LOAD_TEMP_ *問題がコピーされるときに、LOAD_TEMP_ *を使用して接続先テーブルに格納する必要がありますか？ – wangmin

2.Copy data error（max_bad_records：1000）が許可され、データが中断されないようにする（abort_on_error：false ）しかし、データが間違っていても、プログラムは中断されますか？正しいデータが失われるたびに、を解決するにはちょうど（is_skip_job_result_check：true）プログラムに参加しましたか？私はどうしたらいいですか？ – wangmin

塞栓入力赤方偏移出力bigqueryデータ損失

答えて

関連する問題