私は約35 GBのzipファイルを持っています。それぞれに15個のcsvファイルが含まれています。zipファイルとcsvファイルのそれぞれを処理するscalaスクリプトを作成しました各zipファイルごとにSnappyData Spark Scall java.sql.BatchUpdateException
問題は、いくつかのファイルの量スクリプトランチこのエラー
ERROR Executorの後:java.sqlで:段階114.0(TID 3145) にjava.io.IOExceptionでタスク0.0での例外。たBatchUpdateException:(SERVER =ローカルホスト/ 127.0.0.1 [1528]スレッド=プール-3-スレッド63)XCL54.T:キーの[0]インサート[7243901、7243902、
文字列を用いて継続します挿入されていないすべてのキー(レコード)。
私が見つけたのは、明らかに、(私は明らかにスカラーとスナッパーとスパークに関する知識がないために言った)使用されているメモリがいっぱいです...私の質問...使用されるメモリのサイズ?またはメモリ内のデータを空にしてディスクに保存するにはどうすればよいですか?
セッションを終了してメモリを解放することはできますか? サーバを再起動して処理されたファイルを削除してから、インポートを続行できますが、他のファイルの後に...同じ例外...
私のcsvファイルは大きいです...最大のもの1GB程度ですが、この例外は大きなファイルだけでなく、複数のファイルを蓄積しているときに...いくつかのサイズに達するまで発生します...そのメモリ使用量をどこで変更しますか?
私は12ギガバイトのRAMを持っている...
こんにちは、ありがとう、私は私のデータがメモリに収まらないことを知っています、合計金額は約300 + GB ...ですのでここで問題はどのように各csvを処理するためにメモリをインクリメントする方法です)、ディスクにデータを格納したり、メモリと結合したりすることができます。私はRDDパーシスタンスに関する情報を見つけました。私はそれが私のソリューションの一部だと思いますが、どのように/それを設定するのですか?そして、私はすでにそれらを構成しているヒントのおかげで...そして...テスト... –