2017-03-22 12 views
1

JSONとCSVからスパークロードされた2つのレジスタテーブルで複数の選択を行います。 しかし、毎回ロードされる2つのファイルを選択するたびに、グローバルオブジェクトに一度ロードすることはできますか?大きなファイル(jsonまたはcsv)を一度にロードする方法

+0

おそらく '.cache() 'を探しています – mtoto

+0

cacを探しています彼() ??? – BDR

+0

ファイルの1つが30Gで、もう1つが8Gです。ファイルがメモリに収まらない場合は、ファイルを再度読み込みます。 – MohamedHuzien

答えて

0

あなたはStorageLevel

import org.apache.spark.storage.StorageLevel 
dataFrame.persist(StorageLevel.MEMORY_AND_DISK) 

MEMORY_AND_DISKとしてチェックドキュメントでpersist()を使用することができますhere

注:このオプションは、あなたには、いくつかの集計を行っている場合は、より有用である入力データセットのオン/形質転換のと次の変換を行う前に

+0

java.lang.OutOfMemoryError:Javaヒープ領域、データフレームを作成しようとしました。 – MohamedHuzien

関連する問題