私は、さまざまな標準的な機械学習タスクを実行するために、Amazon Elastic MapReduceで自分自身を設定しました。私は過去にローカルマシンの学習に広範囲にPythonを使用しましたが、私はJavaを知らないのです。HadoopでPythonを使用するための分散型機械学習ライブラリはありますか?
私が知る限り、分散型機械学習のためのPythonライブラリは開発されていません。一方、JavaはApache Mahoutであり、Clouderaのより最近のOryxです。
本質的に私は2つの選択肢の中から選択する必要があるようです。まともなライブラリが存在するか、またはMahout/Oryxを使用できるようにJavaに飛び込むまで、Hadoop streamingまたはPython wrapper for Hadoopのいずれかと一緒に使用する自分のアルゴリズムを並列化してください。独自のMapReduceワードカウントコードの作成と独自のMapReduce SVMの作成には、異なる世界があります。 thisのような偉大なチュートリアルの助けを借りても。
私は私の質問があるので、賢明な選択であるかわからない:
A)が有用であろう、私が見逃しているいくつかのPythonライブラリはありますか?もしそうでなければ、近い将来に役に立つ開発があるかどうか知っていますか?
B)上記の答えが「いいえ」ならば、私の時間は船をJavaに飛ばすことに費やされるでしょうか?
チェックアウト:http://stackoverflow.com/questions/4819437/javas-mahout-equivalent-in-python – alexplanation
**ツール、図書館、またはお気に入りのオフサイトリソースを推薦する**を求める**の質問は** Stack Overflowの話題になっているのは、オピニオン回答とスパムを集める傾向があるからです。代わりに、[問題を説明してください](http://meta.stackexchange.com/q/139399/)、それを解決するために今まで何が行われていますか。 –
[ソフトウェアの推奨事項](http://area51.stackexchange.com/proposals/60887/software-recommendations?referrer=L1kFo5C96mMK8IujJZeI4A2)を開きます。 – user