1

私は、スパークを組み込んだメソッドがパーティションを持ち、ファイルの巨大なチャンクを読んで、テキストファイルを使ってrddとして配布していることを知っています。 しかし、私はスパークが本質的にサポートしていないカスタマイズされた暗号化されたfilessytemでこれを読んでいます。私が考えることの1つの方法は、代わりに入力ストリームを読み込み、複数の行を読み込んでエグゼキュータに配布することです。すべてのファイルが読み込まれるまで読んでください。したがって、エグゼキュータはメモリ不足のために爆発することはありません。それは火花でこれを行うことは可能ですか?大きなファイルを入力ストリームとして読み込むには

答えて

0

あなたのクラスタの制限を見つけるために異なるnについてlines.take(n)を試すことができます。
または

spark.readStream.option("sep", ";").csv("filepath.csv") 
関連する問題