私は、データを分析するために1つのpythonスクリプトを使用するプロジェクト要件を持っています。以前は、txtファイルをpythonスクリプトの入力として使用していました。しかし、データが増加するにつれて、ストレージプラットフォームをHadoop HDFSに切り替える必要があります。私はHDFSデータを私のpythonスクリプトにどのようにすることができますか?それを行う方法はありますか?前もって感謝します。HadoopとPythonを統合できますか?
答えて
HadoopのストリーミングAPI:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc
あなたがそれを知るために必要なすべてがここにある:他のアプローチに加えて http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/
これは私が探しているものです。ですから、基本的にすべてがHadoop-streaming.jarによって処理されますか?余分な仕事の必要はありません..私は正しいですか? –
はい、そうです。 –
、あなたは、Pythonスクリプトで豚ラテン文と豚のコマンドをも埋め込むことができますJDBCのようなコンパイル、バインド、実行モデルを使用します。 Pythonの場合、Jython jarがクラスパスに含まれていることを確認してください。 https://pig.apache.org/docs/r0.9.1/cont.html#embed-python
- 1. Kdb +とhadoopを統合することは可能ですか?
- 2. hadoopコミュニティとpentahoコミュニティを統合
- 3. JBoss DroolsとApache Hadoopの統合
- 4. tableauとhadoopの統合の可能なケースは何ですか
- 5. pentahoデータ統合クライアントとhadoopの下でHbaseを接続できません
- 6. matlabをhadoopに統合するには
- 7. hadoop 2.2.0でpigとcassandraを統合するには?
- 8. Zookeeperを統合することで、Hadoopの単一障害点を解決できますか?
- 9. janusgraphと既存のhadoopクラスタを統合する方法
- 10. PythonとRとの統合
- 11. Pythonでの統合
- 12. IdentityServer3とBOXを統合することはできますか?
- 13. PythonとJavaを統合することは可能ですか?
- 14. OBIEEとhadoopの統合の長所と短所
- 15. SkypeとPythonデスクトップアプリケーションの統合
- 16. RailsとPythonの統合
- 17. boost :: pythonとswigの統合
- 18. PythonとServerSide Javascriptの統合
- 19. PythonとUnsplash APIの統合
- 20. 私はpythonでこれを統合することはできません
- 21. PythonとASP.NETを統合するには
- 22. PythonとAndroidを統合する手順
- 23. Pythonで書かれたSelenium RCテストは、PHPUnitに統合できますか?
- 24. Hadoopと電子商取引ポータルの統合
- 25. WinFormsアプリケーションとWPFアプリケーションを統合できますか?
- 26. MSpecとMonoDevelopテストランナーを統合できますか?
- 27. SAMLアプリケーションとAzure AD B2Cを統合できますか?
- 28. DynamodbとWavemakerを統合できますか?
- 29. セレンをJIRAとHP ALMに統合できますか?
- 30. ApacheとMysqlをアプリケーションインストーラに統合できますか?
python、phpなどを使用するためにHadoopストリーミングを使用してください。例:hadoop jar hadoop/tools/lib/hadoop-streaming-2.7.2.jar -mapper /mapper.php -reducer/reducer.php -input/hdfsinputpath -output/hdfsoutputpath –
これは役に立ちます:http://stackoverflow.com/questions/12485718/python-read-file-as-stream-from-hdfs –