2017-10-09 8 views
0

4つのパーティションを持つKafkaトピックで4人の作業者を含む構造化ストリームを配置しました。Spark Structured StreamingエグゼキュータとKafkaパーティション間のマッピングの説明

私は、作業員< - >パーティションの間に1対1のマッピングで4つのパーティションに4つの作業者が配置されていることを前提としていました。

しかし、そうではありません。すべてのパーティションが同じExecutorによって提供されています。私はスレッドIDをチェックし、エグゼキュータをログすることでこれを確認しました。

カフカパーティションとスパークストラクチャードストリームの間の相関関係を示す文書はありますか。また、私たちが微調整できるノブはありますか?

答えて

0

DirectStream APIを使用している場合、相関は1:1(sparkcore:partition)です。

spark streaming guideからカフカ0.10のための統合をストリーミングスパークは 0.8ダイレクト・ストリーム・アプローチと同様の設計です。カフカのパーティションとパーティションをスパークとの間に1 の対応、およびオフセットおよびメタデータへのアクセス

+0

おかげビネーシュ:それは1、簡単な並列性を提供します。しかし、私はストラクチャードストリーミングアプローチを掘り下げたいと思っています。ストラクチャードストリーミングと同じですか? –

+1

ストラクチャードストリーミングと古いスパークストリーミングとの本質的な違いは、スパークストリーミングでDStreamを取得し、ストラクチャードストリーミングでストリーミングデータフレームを取得することです。 1対1の並列性は同じです。 –

関連する問題