2016-06-24 15 views
0

Python 3.XとHadoopの組み合わせを実験したいと思います。どのように始めるべきかアドバイスをお願いしますか?どのPythonパッケージを使うのが好きですか? ありがとうございました!Python 3とHadoopはどこから始めるのですか?

+0

正確に何をしたいですか? Hadoopは、Pythonが直接対話することができるだけでなく、技術の集まりです –

+0

私は大量の生データを使用します。予測モデルを構築するフリーテキスト。これまではCSV形式を使用していました。しかし、今私は限界に達し、それは無効になります。そのため、私はhadoopでデータを格納するためにPython 3.xでhadoopを実験し、それを読み込んでPythonのモデルを構築し、pandasのようなデータフレームと一緒に作ります。私の質問がはっきりしていることを願っています。 –

+0

データフレームの読み込みにHadoopの代わりにApache Sparkを使用するとよいでしょう。これにはPython APIがあります。 –

答えて

2

は、このリンクをチェックしてください:http://hortonworks.com/downloads/#sandbox

それは私が使用しているものです。これをダウンロードしてVirtualBoxまたはVMwareにインポートするだけで、VM上のすべてまたはほとんどのHadoopコンポーネントにアクセスできます。 すべてがあらかじめインストールされているので、ウェブサイトのチュートリアルを読んで作業する必要があります:) すべてがうまく動くように、かなりまともなコンピュータが必要です。 これが役立つことを願っています!

+0

ありがとうございます。非常に包括的なソリューションと思われる、間違いなく見ています。 –

関連する問題