大きなファイルを入力ストリームとして読み込むには

私は、スパークを組み込んだメソッドがパーティションを持ち、ファイルの巨大なチャンクを読んで、テキストファイルを使ってrddとして配布していることを知っています。しかし、私はスパークが本質的にサポートしていないカスタマイズされた暗号化されたfilessytemでこれを読んでいます。私が考えることの1つの方法は、代わりに入力ストリームを読み込み、複数の行を読み込んでエグゼキュータに配布することです。すべてのファイルが読み込まれるまで読んでください。したがって、エグゼキュータはメモリ不足のために爆発することはありません。それは火花でこれを行うことは可能ですか？大きなファイルを入力ストリームとして読み込むには

出典

2017-03-26 Hao Chen

あなたのクラスタの制限を見つけるために異なるnについてlines.take（n）を試すことができます。
または

spark.readStream.option("sep", ";").csv("filepath.csv")

出典

2017-04-02 02:00:38

大きなファイルを入力ストリームとして読み込むには

答えて

関連する問題