私は800Mのtxtファイルからデータフレームを作成し、dfは2130万行を持っています。私は16GBのメモリを搭載したMacにpyspark 2.0.0をインストールしました。私は設定を変更していません。 私はdllの70%をmllibモデルのトレーニングに使用し、Javaヒープメモリが来ました。 私はトレーニングのためにdfの60%を使用していますが、それは大丈夫です、私にモデルを返します。pysparkを走らせるために私のラップトップメモリを最大限に活用するには?
トレーニング用に80%以上のデータを使用できるように、ノートパソコンを設定に最大限に活用するにはどうすればよいですか?ありがとう。