0
私のスパークストリーミングジョブでは、CPUはごくわずかしか使用されていません(わずか5〜10%)。低スパークストリーミングCPU使用率
カフカからデータを取得し、DynomoDBまたはthridpartyエンドポイントに送信しています。
エンドポイントにボトルネックがないと仮定して、CPUリソースをより有効に活用するための推奨事項はありますか?
私のスパークストリーミングジョブでは、CPUはごくわずかしか使用されていません(わずか5〜10%)。低スパークストリーミングCPU使用率
カフカからデータを取得し、DynomoDBまたはthridpartyエンドポイントに送信しています。
エンドポイントにボトルネックがないと仮定して、CPUリソースをより有効に活用するための推奨事項はありますか?
カフカの並列度は、トピックのパーティション数によって異なります。
トピック内のパーティションの数が少ない場合、スパークストリーミングクラスタで効率的に並列化することはできません。
まず、トピックのパーティション数を増やしてください。
カフカのトピックのパーティションを増やせない場合は、DStream.foreachRddの後にパーティションを分けてパーティションの数を増やしてください。
これにより、すべてのノードにデータが分散され、より効率的になります。