1
私は、スパークを組み込んだメソッドがパーティションを持ち、ファイルの巨大なチャンクを読んで、テキストファイルを使ってrddとして配布していることを知っています。 しかし、私はスパークが本質的にサポートしていないカスタマイズされた暗号化されたfilessytemでこれを読んでいます。私が考えることの1つの方法は、代わりに入力ストリームを読み込み、複数の行を読み込んでエグゼキュータに配布することです。すべてのファイルが読み込まれるまで読んでください。したがって、エグゼキュータはメモリ不足のために爆発することはありません。それは火花でこれを行うことは可能ですか?大きなファイルを入力ストリームとして読み込むには