内部でRDDでどのようにパーティションを再編成したのかわかりませんでしたか?私はパーティションの数を増やすためにRDD上で再パーティション化メソッドを呼び出すことができますが、内部でどのように実行されるのか理解しています。スパーク内部 - パーティションはメモリ内のすべてのパーティションをロードしますか?
と仮定すると、最初は5パーティションがあったと彼らが持っていた -
- 第一パーティション - 100個の要素
- 第二パーティション - 200個の要素
- 第三パーティション - 500個の要素
- 第四パーティション - 5000個の要素を
- 第5パーティション - 200個の要素
一部のパーティションはHBaseからロードされ、データがHBaseで正しくソルトされなかったために歪んでしまい、一部のリージョンサーバーにエントリが多すぎることがありました。
この場合、パーティションを10にすると、すべてのパーティションが最初にロードされ、次にシャッフルして10個のパーティションが作成されますか?すべてのデータをメモリにロードできない場合、つまり、すべてのパーティションを一度にメモリにロードできない場合はどうなりますか? Sparkがすべてのパーティションをメモリにロードしない場合、どのようにカウントを知るのですか?また、データが10個のパーティションに正しくパーティション化されていることをどのように確認しますか?