メモリフットプリントのコンセプトについてはわかりません。たとえば、寄木細工のファイルをロードするとき。 1GBとSparkでRDDを作成すると、各RDDのメモリフードプリントはどうなりますか?RDDメモリフットプリント(火花)
1
A
答えて
2
パーケットファイルからRDDを作成すると、RDDでアクションを実行する(たとえば、最初に収集する)まで、何もロード/実行されません。
今では、メモリフットプリントは時間の経過とともに変化する可能性が高いです。 100個のパーティションがあり、同じサイズ(それぞれ10 MB)であるとします。 20コアのクラスタで稼働しているとしたら、任意の時点で10MB x 20 = 200MB
のデータをメモリに格納するだけで済みます。
これに加えて、Javaオブジェクトがより多くの領域を占める傾向があるため、1GBファイルがJVMヒープでどれくらいのスペースを占めるかを正確に言うことは容易ではありません。それは私に2倍またはそれ以上のことができます。
これをテストするトリックは、RDDを強制的にキャッシュすることです。 SparkのUIをStorageにチェックインして、RDDがキャッシュに費やした容量を確認することができます。
0
Marios、あなたの記憶投影では、あなたはパーケットの圧縮を考慮しませんでした。 1Gbは5GB非圧縮にすることができます。
関連する問題
- 1. はどのように私は火花RDD
- 2. 火花 - JSONファイル
- 3. フィルタと火花
- 4. 火花のスペースバー
- 5. 火花が
- 6. 火花データパーティショニングを
- 7. 火花-SQL
- 8. build.sbtブレーク火花mllib
- 9. 火花 - にjava.lang.ClassNotFoundException:oracle.jdbc.driver.OracleDriverと
- 10. スパーク火花提出
- 11. 火花倉庫R
- 12. 変換火花データフレーム
- 13. 火花シェルでobjectFile
- 14. 火花カサンドラます。java.lang.NoClassDefFoundError:COM/datastax /火花/コネクタ/ japi/CassandraJavaUtil
- 15. はハイブとスパーク(火花1.5.0)
- 16. Apacheの火花コード問題
- 17. 火花提出ClassNotFoundExceptionが
- 18. 火花のあるスパークデシジョンツリー
- 19. 解決URI火花Javaで
- 20. 花火イメージ作成問題
- 21. は、効率的に火花
- 22. 合体が火花ここ
- 23. java.lang.NoClassDefFoundErrorが火花提出
- 24. は、火花のmongoコネクタにクエリを実行しようと火花のmongoコネクタ
- 25. 火花 - データフレームのリスト値の数
- 26. 火花の時系列計算
- 27. 火花:python kinesisストリーミングの例を実行
- 28. 火花のJava JARを書く
- 29. 火花データフレーム:2つのブール条件
- 30. 火花シェル最初の起動エラー
応答mariosに感謝します。パーティションに言及すると、寄木細工のファイルからRDDが作成されますか? RDDは物理的なエンティティではないため、私たちの行動に基づいてメモリ内のデータだけが存在します。私はそれを正しく理解していますか?また、不等分割も可能ですか? –
すべてのRDDがパーティション化されます。そうでない場合、並列性はありません。あなたが正しいです、RDDsは、彼らが(彼らが怠けている)必要があるまで具体化されていません。 1つの大きな寄木細工のファイルがある場合、それはかなり均等に分割する必要があります。はい、パーティションがインパレートされている場合があります。特に、1つの大きなファイルではなく、小さなファイルからRDDを生成する場合があります。 – marios