Python 3とHadoopはどこから始めるのですか？

Python 3.XとHadoopの組み合わせを実験したいと思います。どのように始めるべきかアドバイスをお願いしますか？どのPythonパッケージを使うのが好きですか？ありがとうございました！Python 3とHadoopはどこから始めるのですか？

出典

2016-06-24 W.S.

正確に何をしたいですか？ Hadoopは、Pythonが直接対話することができるだけでなく、技術の集まりです –

私は大量の生データを使用します。予測モデルを構築するフリーテキスト。これまではCSV形式を使用していました。しかし、今私は限界に達し、それは無効になります。そのため、私はhadoopでデータを格納するためにPython 3.xでhadoopを実験し、それを読み込んでPythonのモデルを構築し、pandasのようなデータフレームと一緒に作ります。私の質問がはっきりしていることを願っています。 –

データフレームの読み込みにHadoopの代わりにApache Sparkを使用するとよいでしょう。これにはPython APIがあります。 –

は、このリンクをチェックしてください：http://hortonworks.com/downloads/#sandbox

それは私が使用しているものです。これをダウンロードしてVirtualBoxまたはVMwareにインポートするだけで、VM上のすべてまたはほとんどのHadoopコンポーネントにアクセスできます。すべてがあらかじめインストールされているので、ウェブサイトのチュートリアルを読んで作業する必要があります:) すべてがうまく動くように、かなりまともなコンピュータが必要です。これが役立つことを願っています！

出典

2016-06-24 13:51:00

ありがとうございます。非常に包括的なソリューションと思われる、間違いなく見ています。 –

Python 3とHadoopはどこから始めるのですか？

答えて

関連する問題