spill to diskとshuffle writeについて混乱しています。既定の並べ替えシャッフルマネージャを使用して、appendOnlyMapを使用してパーティションレコードを集約し、結合します。そして、実行メモリがいっぱいにするとき、我々はそれをディスクにこぼし、マップを並べ替え起動し、次の流出のためのマップを(発生した場合)、クリーンアップ、私の質問は以下のとおりです。 ディスクへの流
私はポガーAnalyticsModelを持っています。私はpojoのオブジェクトを作成するループを持っています。オブジェクトを作成するたびに、私はAnalyticsModelListという名前のリストに保存します。そしてループから出た後、私はリストをRDDに変換しています。以下は私のコードです: do {
AnalyticsModel analyticsObj = new Analy
mapPartitions()に部分的な結果を返す方法はありますか?パーティションがresults配列がOOM例外がスローされます大きすぎる場合 myRDD.mapPartitions{
iter: iterator[InputType] => {
val additionalData = <some costly init operation>
val result
キャッシュされたRDDを別のアプリケーション(または同じアプリケーションの別のラン)で再利用する可能性はありますか? JavaRDD<ExampleClass> toCache = ... // transformations on the RDD
toCache.cache(); // can this be reused somehow in another application
私はPySparkでデータフレームを扱います 私は次のタスクを持っています:各列の "times"値の数がすべて> 2であることを確認してください。 u1については、u2 => 2などで user a b c d times
u1 1 0 1 0 0
u2 0 1 4 3 2
u3 2 1 7 0 1
私の解決策は以下の通りです。それは動作します、私はそれが最良の