4つのパーティションを持つKafkaトピックで4人の作業者を含む構造化ストリームを配置しました。Spark Structured StreamingエグゼキュータとKafkaパーティション間のマッピングの説明
私は、作業員< - >パーティションの間に1対1のマッピングで4つのパーティションに4つの作業者が配置されていることを前提としていました。
しかし、そうではありません。すべてのパーティションが同じExecutorによって提供されています。私はスレッドIDをチェックし、エグゼキュータをログすることでこれを確認しました。
カフカパーティションとスパークストラクチャードストリームの間の相関関係を示す文書はありますか。また、私たちが微調整できるノブはありますか?
おかげビネーシュ:それは1、簡単な並列性を提供します。しかし、私はストラクチャードストリーミングアプローチを掘り下げたいと思っています。ストラクチャードストリーミングと同じですか? –
ストラクチャードストリーミングと古いスパークストリーミングとの本質的な違いは、スパークストリーミングでDStreamを取得し、ストラクチャードストリーミングでストリーミングデータフレームを取得することです。 1対1の並列性は同じです。 –