低スパークストリーミングCPU使用率

私のスパークストリーミングジョブでは、CPUはごくわずかしか使用されていません（わずか5〜10％）。低スパークストリーミングCPU使用率

カフカからデータを取得し、DynomoDBまたはthridpartyエンドポイントに送信しています。

エンドポイントにボトルネックがないと仮定して、CPUリソースをより有効に活用するための推奨事項はありますか？

2017-03-17 rajnish

カフカの並列度は、トピックのパーティション数によって異なります。

トピック内のパーティションの数が少ない場合、スパークストリーミングクラスタで効率的に並列化することはできません。

まず、トピックのパーティション数を増やしてください。

カフカのトピックのパーティションを増やせない場合は、DStream.foreachRddの後にパーティションを分けてパーティションの数を増やしてください。

これにより、すべてのノードにデータが分散され、より効率的になります。

2017-03-18 04:07:20

答えて