RHadoopとApache Mahout

大きなデータ用の推奨システムを開発したいと思います。たとえば、1日あたり2GBのログデータを作成します。この目的のために、RhadoopとApache Mahoutのどちらを優先するのですか？RHadoopとApache Mahout

この質問には、コード、スピードなどの可用性などのさまざまな側面から回答してください。

あなたがRを知っていて、データがそれほど大きくない場合は、SparkRを試してみてください。しかし、大量のRパッケージコレクションのほとんどはSparkの分散データとうまく統合できません。

大きなデータがある場合は、RのようなScala APIを使用しても問題ありません。Mahoutが優れています。サンプルデータを使って数学を学ぶことができ、同じコードが自動的にプロダクションサイズに拡大されます。

2016-05-30 19:02:28 pferrel

答えて