現在、私はh2o.ai
とSparkMLlib
を使って機械学習ライブラリに関するアンケートを行っています。私はより多くのMLアルゴリズムがSparkMLlib
と比較してh2o.ai
ライブラリによってサポートされていることを確認しました。スパークデータフレームのトレーニングとテストセットへの分割は難しいようです(スパークデータフレームをR/h2oデータフレームに変換する必要がありますまた、時間/リソースの消費)。機械学習アルゴリズムの視点からのh2o.aiとSparkMLlibの相違
ライブラリをSparkMLib
以上に使用した場合の他のメリットとデメリットは?私はh2o.ai
とSparkMLlib
をRベースの実装(SparkR)に集中しています。したがって、h2o (as.h2o)
とSparkMLlib (as.DataFrame)
のデータフレームは異なります。