膨大な量のデータを持つスパークプログラムを実行する必要があります。私はスパークプログラムを最適化しようとしていて、スパークUIを使い、シャッフル部分を減らそうとしています。スパークのシャッフル・リードとシャッフル・ライトの違いは何ですか?
シャッフル読み取りとシャッフル書き込みの2つのコンポーネントがあります。私は彼らの用語に基づいて違いを理解することができますが、私はそれらの正確な意味を理解したいと思いますし、スパークのシャッフル読み取り/書き込みのどちらがパフォーマンスを低下させるのですか?
私はインターネット上で検索しましたが、詳細は確かではありませんでしたので、ここで説明できるかどうかを知りたいと思っていました。
Sparkの最適化ヒント1つ:シャッフル回数を減らしてみてください。 – LiMuBei