Spark StreamingでJavaでプロトタイプのアプリケーションを構築しました。このアプリケーションでは、HyperLogLogを使用して、シミュレートされたクリックストリームから別のユーザーを見積もります。スパーク単一のキーでストリーミングの並列化
私の解決策を簡単に説明しましょう。 JavaDStream<String> fullvisitorids = directKafkaStream.map(line -> line._2().split(",")[0]);
は(私のHyperLogLog-Object)をグローバルな状態を維持する唯一の方法:私は唯一の必須フィールド、fullvisitoridを含むストリームを作成します。そこからJavaPairReceiverInputDStream<String, String> directKafkaStream = KafkaUtils.createStream(streamingContext, ZOOKEEPER_ADDRESS, ZOOKEEPER_GROUP, topics);
:まず私はKafkaUtilsとストリームを作成します私はudpateStateByKeyまたはmapWithStateメソッドが見つかりました。どちらもキーと値のペアを必要とするようですが、私の場合、キーは必要ありません。 fullvisitorids.mapToPair(value -> new Tuple2<String, String>("key", value));
しかし、今、私の質問:
は、だから私は「ダミーの鍵」を使用することにしましたa)のスパークはただ1つのキーを持って、このストリームにupdateStateByKeyまたはmapWithStateとの変換を並列化しない方法は?または、クラスタ上でRDDをどのように分割しますか?
b)私の問題の解決策として、ダミーキーを追加する方法がありますが、これにはまったく機能がありません。
ありがとうございました。 b)そのようなソリューションをどの程度正確にクラスタに分散させるのでしょうか? – JayKay