Streamer jarでhadoopプログラムを実行したときと、プログラムのjarファイルで実行したときの違いは何ですか?Hadoop API VS. Hadoop Streaming
答えて
通常、Map/Reduceのペアはデータセットを独立したチャンクに分割し、その結果を組み合わせて有用な分析を行います。Hadoopストリーミングは、マップを作成する/アプリケーションをとSTDOUT(for output)
と一緒に使用できるany language(like Ruby/Python/Bash etc.)
に減らしてください!
Javaを使用しない場合は、コアのハープ関数が利用できないと言ってもいいでしょう。 ChainMapperやChainReducer、ChainedJobsなどはストリーミングでは利用できません。また、HadoopはJavaで記述されているため、Javaを使用すると高速になります。
また、理論的には、マッパーが完了した後、減速器がもう一つ起動しません。 HTMLで、入力が同時に移動しているときに実行される減速機として表示されるもの。
Thnx again.But今の私はこのフォーラムを離れる必要があります、私は禁止されている..何の理由で知っていない.. – CodeBanger
Hadoop Streamingを使用すると、標準入力からのデータの読み取りと標準出力への書き込みをサポートするプログラミングやスクリプト言語で、マップを作成して関数を減らすことができます。この機能により、Hadoop Streamingは非常に柔軟になり、多数のユーザが簡単に使用できます。 R、Python、C++、その他ほとんどの言語で使用できます。 ハープ・ストリーミング・ジョブのデフォルトの入力フォーマットはTextInputFormatで、データを1行読み込みます。たとえば、マッパーの数、リデューサーの数、jvmメモリー、入力フォーマット、出力フォーマットなど、多くのパラメータをカスタマイズできます。一度に。
ハイドープAPI Javaにかなり縛られていますが、設定や開発はJavaコード自体からすべて設定できるため、より簡単です。私の経験から、Javaは少し速いようですが、適切な言語で適切に設定して使用すると、ストリーミングがかなり近づくことがあります。
利点ストリーミングの:雇用を削減
- のHadoopストリーミングを使用すると、地図などのスクリプトのRubyやPython、豚などのお好みのスクリプト言語での仕事を減らす提出することができますが、複数の地図に変換することができます。あなたはjavaを学ぶ必要はありません。
短所。
- Hadoop Streamingスクリプトのパフォーマンスは、javaを使用するHadoop APIの実装と比較して低いです。理由は明らかです。スクリプトは複数のMap Reduceジョブに変換され、複数のジョブを完了する必要があるため、ジョブ完了時間は非常に長くなります。個人的に
、私はあなたは、Javaでプログラミングしているならば、あなたはコンパイルして、定期的にジョブを送信するJava
で書かれた顧客パーティショナ & コンバイナとHadoopのAPIを使用して、より快適にしています。あなたはPythonや.NETなどの他の言語を使いたいなら、あなたは橋のように、これらの言語やストリーミングジャー行為でプログラムを開発することができ、これらの言語は、Java
Shahzad
- 1. Hadoop Streaming task failure
- 2. Oozie Hadoop Streaming
- 3. ストリーミングデータとHadoop? (Hadoop Streamingではない)
- 4. Streaming or Custom Jar in Hadoop
- 5. Hadoop Vs Data Lake
- 6. hadoop streaming無効なDFSディレクトリ名
- 7. Hadoop Streaming MapReduceファイルの検索が遅い
- 8. Hadoop 2.7.3 Streaming Jarが有効でない
- 9. Hadoop Streamingの下位互換性
- 10. Spark Streaming + Hbase:NoClassDefFoundError:org/apache/hadoop/hbase/spark/HBaseContext
- 11. Hadoop S3アクセス - FileSystem vs FileContext
- 12. Ubuntu上のHadoopインストール、HadoopファイルVS HortonworksまたはCloudera
- 13. hadoop 2.7.3 vs hadoopの違いは何ですか?2.6.5
- 14. のHadoop API設定
- 15. Hadoop不変vsデータ型変更可能
- 16. mongo-hadoopを使ってPythonにHadoopストリーミング
- 17. Hadoop DistributedCacheは、hadoopジョブでステータス
- 18. Hadoop/Hbase:java.lang.NoClassDefFoundError:org/apache/hadoop/hbase/HBaseConfiguration
- 19. Hadoop Streaming - ファイルエラーを見つけることができません
- 20. Hadoop Streaming - 入力パラメータが多すぎます
- 21. Hadoop StreamingでPython mapreduceを実行するには
- 22. hadoop-streamingにファイルではないディレクトリを渡しますか?
- 23. PythonでHadoop Streaming Job failedエラーが発生しました
- 24. Hadoop Streamingを介してPySparkのXmlファイルを読む
- 25. Hadoop Hadoop 3.0でCopyMergeを行う方法
- 26. hadoopローカルファイルをHadoop SFエラーにコピーする
- 27. Hadoopクラスタアーキテクチャ
- 28. Hadoopシングルノードクラスタ
- 29. Hadoop NameNode
- 30. Hadoop JvmPauseMonitor
あるネイティブのHadoopではないのではい、私が行っていますそれ。しかし、私の質問はdifference.Like 1つ私はjava mapreduceで私たちはinbuiltマップを使用してクラスを減らすことがわかったが、私はストリーマでPHPでそれをしたとき、私はそれを使用しませんでした。 – CodeBanger
よくあるメリットは、プログラムがHadoopを使用するためにjavaを知る必要がないことと同じです。Hadoop streamingはそこにあります... –
しかし、Java以外の言語を使用すると心配していますが、コアのhadoop機能を使用できません。私はPHPの倹約のクライアントを探したが、リンクが死んでいると私はちょうど今、私はPHPがより多くの時間がかかることが判明しました。マップは、対応するように開始開始時に減少するが、マップ終了時にphpを減らし始める。助けになるでしょう。 – CodeBanger