2012-01-16 9 views

答えて

5

私が知る限り、MapRは「高速な」Hadoopに過ぎません。アルゴリズムは含まれていません。

あなたの仕事は互換性があるはずです。

しかし、あなた自身の実装での取り引きは何ですか? K-手段は非常に簡単です。あなたはこの本の中でMahoutのベンチマーク結果と比較した場合 私が実施しているがhttp://codingwiththomas.blogspot.com/2011/05/k-means-clustering-with-mapreduce.html

はほぼ10倍高速であるBSP(バルク同期パラレル)とApache浜でk平均クラスタリング:私のブログの記事を参照してくださいhttp://www.manning.com/ingersoll/を(リンクJIRA:https://issues.apache.org/jira/browse/MAHOUT-588):http://wiki.apache.org/hama/Benchmarks

あなたがここでそれを見つけることができます: https://github.com/thomasjungblut/thomasjungblut-common/blob/master/src/de/jungblut/clustering/KMeansBSP.java

+0

おお は、ここではApacheハマでのk-means法のベンチマークです!私はこれらのリンクを見ます!ありがとう.... –

+0

MapRはもっと速いHadoopではありません。これには標準のエコシステムコンポーネントもすべて含まれています。これにはMahoutが含まれます。 –

+1

Hadoopのmap-reduceの実装は、Lloydのアルゴリズムを使用する従来のk-meansのような反復アルゴリズムには適していないということは間違いありません。シングルパスk-means解析を可能にするJIRAオープンがあります。シングルパスなので、このアルゴリズムはデータを複数回通過する必要はなく、動作させるためにmap-reduceを複数回呼び出す必要はありません。スピードアップは、トーマスが説明しているものに匹敵するはずです。 –

関連する問題