2017-05-31 1 views
1

当社のデータフローの仕事はしてマージ工程の前に失敗して、出力ファイルの名前を変更することができません:、GSフォルダから2つのテキストファイルを読み込み、それらを変換し、BigQueryのデータセットに書き込む前に、それらをマージし

Unable to rename output files from gs://xxx to gs://xxxx

マージを開始する前に、一時ファイルが削除されているように見えますか?

+0

パイプラインコードを共有できますか? –

+0

どのバージョンのDataflow SDKを使用していますか?あなたが書いているGCSバケツには、どんな種類のTTLを持っていますか?より詳細な情報が必要なジョブIDはありますか? –

+0

パイプライン: 'collection1 = load_all_from_tsv(パス1) コレクション2 = load_all_from_tsv(パス2) ((collection1、コレクション2) | 'Flaten' の両方>> beam.Flatten() | '形式の行' >> beam.FlatMap( ourFormattingFunction) | >> beam.io.Write( beam.io.BigQuerySink( 'project.outputdatasetを' 'にBigQueryへの書き込み'、 スキーマ=スキーマ、 create_disposition = beam.io.BigQueryDisposition.CREATE_IF_NEEDED、 write_disposition = beam.io.BigQueryDisposition.WRITE_APPEND )) ) ' –

答えて

1

問題が見つかりました! 2つのFlatMap関数のうちの1つが、不正な形式のデータのために失敗していました。同様の問題を抱えている他の人のためのヒント:DirectRunnerを使って、すべてのmap/pardo/etc関数をデバッグしてください!

関連する問題