2012-11-21 14 views
6

「Maping Reduce for Multicore」の論文では、10個の機械学習アルゴリズムが示されています。重要な点は、「統計的クエリモデルに適合するアルゴリズムは、特定の「総和形式」で書くことができます。アルゴリズムは、総和形式で表され、マップ減法プログラミングモデルを適用することができます。map reduceモデルを適用できない機械学習アルゴリズム

マップ縮小モデルを適用することができないということを意味するわけではありません。マップ減速モデルによってスピードアップできない特定の機械学習アルゴリズムを指摘できますか?

+2

mapreduceにすべてのアルゴリズムを適合させることはできますが、効率的であるとは限りません。 –

+0

はい、すべてのアルゴリズムにmap reduceを適用できますが、一部のアルゴリズムのパフォーマンスを向上させることはできません。上記の論文では、10個のアルゴリズムを列挙し、元のアルゴリズムをいわゆる「総和形式」に変換する方法を示しました。次に、map reduction法を総和形式に適用することができます。どのアルゴリズムがmap reduceモデルの恩恵を受けることができないか知りたい。 – user1841342

答えて

3

MapReduceは計算上この制限により、構造化モデル上で動作するアルゴリズムを表現することが困難になる。

大規模な問題に直面した場合、MapReduceの抽象化2に従う過度に単純化された方法に賛成して、豊富な構造化モデルを放棄することがよくあります。

機械学習コミュニティでは、多数のアルゴリズムが学習と推論の両方でパラメータを反復的に変換します。たとえば、信憑伝播、期待値最大化、勾配降下、およびギブスサンプリングです。それらのアルゴリズムは、いくつかの終了基準が2と一致するまで、パラメータのセットを繰り返し調整します。

各繰り返しでMapReduceを呼び出すと、計算を高速化できると思います。ここでのポイントは、データのグラフィカルな構造を取り入れ、洗練されたスケジューリングを表現したり、自動的に終了を評価したりできるように、より優れた抽象化フレームワークが必要な点です。

BTW、Graphlabは、上記の理由により動機付けられた選択肢の1つである2です。

+0

あなたの答えをありがとう。したがって、BP、EM、GD、Gibbs Samplingはマップリダクションモデルのメリットがありません。私が知っているように、上記の論文のEMとバッチグラディエントの下降は、マップの削減の恩恵を受けることができます。 GSDは大規模な問題ではGDよりも効率が良いことが多いにもかかわらず、確率的な勾配降下はそうではないという。 – user1841342

+0

はい、私はEMとバッチGDがmap/reduceの恩恵を受けることに同意します。私が指摘しようとしているのは、map/reduceの恩恵を受けることができるかどうかは、より良い抽象モデルを持つほど重要ではないかということです。私の2番目の最後の段落を見てください。アルゴリズムを高速化することが、それが最良のモデルであることを意味するわけではありません。我々は、別のモデルを使用することで大幅にスピードアップできるかもしれません。 – greeness

関連する問題