0
数千のファイルを処理するデータフロージョブを作成しようとしていますが、ファイルごとにGCSの別の宛先に書き込みます。Googleデータフロージョブが失敗して「データが不十分です」エラー
私はソースとして多くのTextIOを実行し、別々のフローとして宛先に書き込む必要があります。サンプル・コード・スニペットは、次のようになります。これは、バックエンドでエラー「アップロードされたデータが不十分」との(永遠にぶら下がっているようだ)黙って失敗し
List<PCollection<String>> pcs = new ArrayList<>();
for(int i = 0; i < 2000; i++) {
pcs.add(p.apply(TextIO.Read.from("gs://wushilin-asia/some-folder/input-" + i + "/*")));
}
for(int i = 0; i < 2000; i++) {
pcs.get(i).apply(TextIO.Write.to("gs://wushilin-asia/some-folder/output-" + i + "/"));
}
p.run();
。
ここで何が問題になりますか?
データフロー構造が複雑すぎ、データフロージョブのメタデータストレージがそれを処理できないことが判明しました。この問題を解決したコンポーネントの数を減らす –