2016-08-28 8 views
-2

紅茶ツー​​ルを使用すると、redshiftからGoogle bigqueryをインポートします。is_skip_job_result_check属性を追加するとtrue:データが失われています(bigqueryのインポートにatほとんど1000の間違ったレコード)、それは私の設定です。 Ymlファイル。塞栓入力赤方偏移出力bigqueryデータ損失

type: redshift 
    host: ... 
    port: 5439 
    user: my_user 
    password: password 
    database: my_database 
    schema: public 
    fetch_rows: 1000 

クエリ:中

SELECT * FROM app140681.events140681_5747135 
WHERE TO_CHAR(event_time, 'YYYYMMDD') = '20160707' 

アウト:

type: bigquery 
    auth_method: json_key 
    json_keyfile: 
    content: | 
     { 
      "private_key_id": "...", 
      "private_key": "-----BEGIN PRIVATE KEY------END PRIVATE KEY-----\n", 
      "client_email": "..." 
     } 
    project: my_project 
    dataset: testdataset 
    auto_create_table: true 
    table: test_redshift 
    emplate_table: test_redshift_schema.json 
    #schema_file: ./schema.json 
    max_bad_records: 1000 
    abort_on_error: false 
    compression: NONE 
    is_skip_job_result_check: true 
    job_status_polling_interval: 5 
    source_format: CSV 
    "CSV" 
    default_timezone: 'UTC' 

答えて

1

is_skip_job_result_checkがtrueの場合、embulk-出力のBigQueryは、BigQueryの負荷ジョブを待ってスキップ仕上げるembulk-output-bigqueryはもう何もできません。 is_skip_job_result_checkがfalseの場合、embulk-output-bigqueryはロードジョブの結果ステータスを取得し、自動的に必要なときに再試行します。

is_skip_job_result_check: trueでは、手動でBigQueryコンソールでembulkの読み込みジョブが中止されていないかどうかを確認し、必要に応じて実行中のembulkを再試行する必要があります。 BigQueryコンソールを確認してください。

+0

「is_skip_job_result_check:false」でbigqueryへの読み込みに成功しても、常に(is_skip_job_result_check:true)データが失われることはありますが、プラグインに問題があると思われます。私に教えてください(私は作者です)。 –

+0

1. is_skip_job_result_checkに設定されている場合:true、私は既にbiqeryログをチェックしていますが、エラーはありませんが、データは失われます (データはデータベースにコピーされないことがあります) LOAD_TEMP_ *問題がコピーされるときに、LOAD_TEMP_ *を使用して接続先テーブルに格納する必要がありますか? – wangmin

+0

2.Copy data error(max_bad_records:1000)が許可され、データが中断されないようにする(abort_on_error:false )しかし、データが間違っていても、プログラムは中断されますか? 正しいデータが失われるたびに、 を解決するにはちょうど(is_skip_job_result_check:true)プログラムに参加しましたか?私はどうしたらいいですか? – wangmin

関連する問題