ファイルから大きなデータセットを読み込み、それをSparkマトリックスに変換し、マトリックス上で機械学習アルゴリズムを実行する必要があります。私は機械学習アルゴリズムの速度をベンチマークしたいと思う。スパークRDDは常に遅延評価されるため、機械学習アルゴリズムをベンチマークすることは困難です。私はランタイムを測定するときに、入力ファイルを解析するためのランタイムも含みます。Sparkで明示的にRDDを実現する方法
SparkにいくつかのRDDを強制的に適用させる方法はありますか?私は機械学習アルゴリズムを実行する前に事前に入力ファイルを解析することができますか?
おかげで、 ダ
データフレームとsaveAsTableへの変換はどうですか? –