私はこのトピックに関する多くの情報を見つけることができませんでしたが、データフレームを使用して寄木張りファイルを読み込み、10ブロックスパークは自然に10パーティションを作成します。しかし、データフレームがファイルを読み込んで処理するときには、大きなデータ対パーティション比を処理しません。なぜなら、ファイルを圧縮解除して処理すると、ブロックサイズが大きくなり、パーティションも大きくなるからです。寄木細工と分割によるスパークデータフレーム
私は、パーケット圧縮(これらの数値は完全に正確ではありません)を明確にします。 1GB Par = 5 Blocks = 5 5GBに圧縮解除され、25ブロック/ 25パーティションになるパーティション。しかし、1GBのparファイルを再パーティション化しない限り、最適に25個のパーティションがある場合は、わずか5個のパーティションしか使えません。または私の論理が間違っている。
速度を上げるためにパーティションを再分割することは理にかなっていますか?あるいは、私はこの間違いを考えています。誰かがこれについていくつかの光を当てることができますか?
仮定:
- 1ブロックDATAFRAMEがメモリに寄木細工のファイルをロードしない1パーティション
「もっと多くの情報を処理する」とは何ですか? –
私が言っていることは、10ブロックのパーケットファイルを読み込んでいますが、その圧縮されていないときにあなたはまだSparkで10パーティションを使用しているということです。圧縮されていないファイルは当然大容量なので再パーティションする必要がありますか? – theMadKing
追加の説明が追加されました – theMadKing