2016-05-30 1 views
0

大きなデータ用の推奨システムを開発したいと思います。たとえば、1日あたり2GBのログデータを作成します。この目的のために、RhadoopとApache Mahoutのどちらを優先するのですか?RHadoopとApache Mahout

この質問には、コード、スピードなどの可用性などのさまざまな側面から回答してください。

答えて

1

あなたがRを知っていて、データがそれほど大きくない場合は、SparkRを試してみてください。しかし、大量のRパッケージコレクションのほとんどはSparkの分散データとうまく統合できません。

大きなデータがある場合は、RのようなScala APIを使用しても問題ありません。Mahoutが優れています。サンプルデータを使って数学を学ぶことができ、同じコードが自動的にプロダクションサイズに拡大されます。

関連する問題