2017-03-17 11 views
0

私のスパークストリーミングジョブでは、CPUはごくわずかしか使用されていません(わずか5〜10%)。低スパークストリーミングCPU使用率

カフカからデータを取得し、DynomoDBまたはthridpartyエンドポイントに送信しています。

エンドポイントにボトルネックがないと仮定して、CPUリソースをより有効に活用するための推奨事項はありますか?

答えて

0

カフカの並列度は、トピックのパーティション数によって異なります。

トピック内のパーティションの数が少ない場合、スパークストリーミングクラスタで効率的に並列化することはできません。

まず、トピックのパーティション数を増やしてください。

カフカのトピックのパーティションを増やせない場合は、DStream.foreachRddの後にパーティションを分けてパーティションの数を増やしてください。

これにより、すべてのノードにデータが分散され、より効率的になります。