私はcollect
に多くの時間を要する大きなRDDを持っています。 私はすべてのパーティションにmapPartitionsWithIndex
を使ってその内容をテキストファイルに書き込ませると考えました。しかし、これは非同期の方法ではありません。スパークRDD.saveAsTextFile非同期
RDDの内容を非同期で書き出す方法はありますか?
私はcollect
に多くの時間を要する大きなRDDを持っています。 私はすべてのパーティションにmapPartitionsWithIndex
を使ってその内容をテキストファイルに書き込ませると考えました。しかし、これは非同期の方法ではありません。スパークRDD.saveAsTextFile非同期
RDDの内容を非同期で書き出す方法はありますか?
なぜ収集しますか?テキストに書き込むだけです。非同期ではありませんが配布されています –
私もその質問をよく理解していません。あなたは 'saveAsTextFile'をタイトルに書いた後、' collect'と 'mapPartitionsWithIndex'について質問します。とにかく答えを出そうとしました。 –
saveastextfileの問題は、タスク全体が終了するまで結果ファイルを読み取ることができないということです。そのときだけ、ドライバにファイルをコピーして読み込みを開始することができます。これは楽しい時間です! mapPartitionWithIndexとasyncSaveAsTextFileを使用して最初に分割します。 – minsky