2016-06-21 4 views
1

私は、データを分析するために1つのpythonスクリプトを使用するプロジェクト要件を持っています。以前は、txtファイルをpythonスクリプトの入力として使用していました。しかし、データが増加するにつれて、ストレージプラットフォームをHadoop HDFSに切り替える必要があります。私はHDFSデータを私のpythonスクリプトにどのようにすることができますか?それを行う方法はありますか?前もって感謝します。HadoopとPythonを統合できますか?

+0

python、phpなどを使用するためにHadoopストリーミングを使用してください。例:hadoop jar hadoop/tools/lib/hadoop-streaming-2.7.2.jar -mapper /mapper.php -reducer/reducer.php -input/hdfsinputpath -output/hdfsoutputpath –

+0

これは役に立ちます:http://stackoverflow.com/questions/12485718/python-read-file-as-stream-from-hdfs –

答えて

2

HadoopのストリーミングAPI:

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ 
-input myInputDirs \ 
-output myOutputDir \ 
-mapper /bin/cat \ 
-reducer /bin/wc 

あなたがそれを知るために必要なすべてがここにある:他のアプローチに加えて http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/

+0

これは私が探しているものです。ですから、基本的にすべてがHadoop-streaming.jarによって処理されますか?余分な仕事の必要はありません..私は正しいですか? –

+1

はい、そうです。 –

0

、あなたは、Pythonスクリプトで豚ラテン文と豚のコマンドをも埋め込むことができますJDBCのようなコンパイル、バインド、実行モデルを使用します。 Pythonの場合、Jython jarがクラスパスに含まれていることを確認してください。 https://pig.apache.org/docs/r0.9.1/cont.html#embed-python

関連する問題