2017-09-03 19 views
-1

Sparkで複数のMLアルゴリズムを並列化する方法はありますか?私のユースケースは次のようなものです: A)複数のマシン学習アルゴリズム(Naive Bayes、ANN、Random Forestなど)を並行して実行します。 1)10倍クロスバリデーションを使用して各アルゴリズムを検証する。 B)ステップA)の出力を2層目の機械学習アルゴリズムでフィードする。 私の質問は: 複数の機械学習アルゴリズムをステップAで並列に実行できますか? クロスバリデーションを並行して行うことはできますか?同様に、Naive Bayesトレーニングの10回の反復を並行して実行しますか?Apache Spark:複数機械学習アルゴリズムの並列化

異なるアルゴリズムを並行して実行する方法が見つかりませんでした。クロスバリデーションも並行して行うことはできないようです。 このユースケースを並列化する提案がありがとうございます。

答えて

0

一般に、分散型の単語を混乱させる人がいます。プログラミング言語やMLアルゴリズムは配布されません。これは、実行エンジンのコレクション(データ構造)に依存します。たとえば、Scalaは配布されていません。具体的には、Scalaのコレクションは配布されません。 Sparkのような大きなデータツールは、コレクションを分散して独自のデータ構造内にラップしています。はい、RDD、Dataframes、LableledPoints、Vectorsについて話しています。これらの構造は、パーティションに依存する計算を並列にします。

機械学習がチューニングされるデータが特定のnサイズのクラスタ内のノードに分散されるため、質問に答えるために、並列モードで機械学習を実行できます。