2017-03-29 1 views
0

私は800Mのtxtファイルからデータフレームを作成し、dfは2130万行を持っています。私は16GBのメモリを搭載したMacにpyspark 2.0.0をインストールしました。私は設定を変更していません。 私はdllの70%をmllibモデルのトレーニングに使用し、Javaヒープメモリが来ました。 私はトレーニングのためにdfの60%を使用していますが、それは大丈夫です、私にモデルを返します。pysparkを走らせるために私のラップトップメモリ​​を最大限に活用するには?

トレーニング用に80%以上のデータを使用できるように、ノートパソコンを設定に最大限に活用するにはどうすればよいですか?ありがとう。

答えて

1

ドライバプログラムにはspark.driver.memory、sparkエグゼキュータにはspark.executor.memoryを設定できます。どちらが正しいかはあなたのアプリケーションによって異なりますが、あなたの場合はspark.executor.memoryだと思います。

これをコマンドラインオプションとして​​および/またはpysparkに設定できます。

詳細については、Apache Spark Memory Docsを参照してください。

関連する問題