2
excessive fusionを防ぐためにReshuffle
変換を実装しようとしていますが、単純なPCollectionsを処理するために<KV<String,String>>
のバージョンを変更する方法はわかりません。 (hereに記載されている方法PCollection <KV<String,String>>
シャッフルする。)PCollectionを再シャッフルする方法<T>?
をどのように私は私のパイプラインで複数の工程を追加する前にexample codeを改造する公式のアブロI/Oを拡張するのでしょうか? Googleのサポートチームが提供するコードスニペットに
PipelineOptions options = PipelineOptionsFactory.create();
Pipeline p = Pipeline.create(options);
Schema schema = new Schema.Parser().parse(new File("schema.avsc"));
PCollection<GenericRecord> records =
p.apply(AvroIO.Read.named("ReadFromAvro")
.from("gs://my_bucket/path/records-*.avro")
.withSchema(schema));
あなたは 'AddArbitaryKey'について詳しく説明できますか?なぜそれが必要なのか、そして 'AddArbitraryKey'の特定の実装が重要なのですか?それはキースペースがワーカーに分散される方法に影響を与えますか? – harveyxia
'Redistribution'トランスフォーム(https://github.com/apache/incubator-beam/pull/1036参照)と同様に、任意の方法で再配布する必要があります。無作為に選ばれた整数キーはランダムな分布につながるはずです。 – Tobi
ありがとう、 'Redistribution'のユースケースは? – harveyxia