〜800.000ファイルで大きな変換を実行しようとすると、パイプラインを実行しようとすると上記のエラーメッセージが表示されます。ここでGoogle Dataflow:要求ペイロードサイズが上限を超えています:10485760バイト
コードです:
public static void main(String[] args) {
Pipeline p = Pipeline.create(
PipelineOptionsFactory.fromArgs(args).withValidation().create());
GcsUtil u = getUtil(p.getOptions());
try{
List<GcsPath> paths = u.expand(GcsPath.fromUri("gs://tlogdataflow/stage/*.zip"));
List<String> strPaths = new ArrayList<String>();
for(GcsPath pa: paths){
strPaths.add(pa.toUri().toString());
}
p.apply(Create.of(strPaths))
.apply("Unzip Files", Write.to(new ZipIO.Sink("gs://tlogdataflow/outbox")));
p.run();
}
catch(IOException io){
//
}
}
私はGoogleのデータフローがためであるまさにザッツと思いましたか?大量のファイル/データの処理?
ロードを分割して動作させる方法はありますか?
おかげ& BR
フィル