2017-02-10 8 views
0

単一ノードのクラスタでHadoop 2.7.3でMapReduceジョブを実行しています。地図の所要時間を計算し、この仕事の仕事を減らすにはどうすればよいですか?レデューサーの所要時間を計算するhadoop

解決済み この質問を表示している人、または同様の問題に直面している人に役立ちます。 Shubhamの答えと私は少し研究@へ ありがとう:それはリソースマネージャとアプリケーションのマスターに分割されました。2.

  1. ジョブトラッカーは、Hadoopの中で削除されました。ジョブ履歴サーバ(完成されたアプリケーションやジョブに関する統計情報を表示するために)お使いのブラウザにURLを入力」にアクセスするには
  2. リソースマネージャにアクセスするには
  3. 、ブラウザにURLを入力し、「http://localhost:8088
  4. http://localhost:19888 "

ジョブヒストリーサーバーにアクセスしようとするとエラーが発生する可能性があります。アプリケーションの履歴がないことがわかります。

i. Run the command in your terminal 
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver 
ii. Then run the command 
    jps 
You should be able to see the "JobHistoryServer" in the list 
iii. Now run the command 
netstat -ntlp | grep 19888 

i. In your terminal, type "nano ~/.bashrc" 
ii. Now in this file, where the other hadoop variables are written add the line 
    export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop 
iii. Exit out of nano and save the file. 
iv. Run the command "source ~/.bashrc" 

1.ジョブ履歴サーバ

、手順を開始するには:

  1. 変更のbashrcファイル

手順:その場合は以下の手順を実行します。

答えて

0

ヒットリソースマネージャのWeb UI(http://rm_http_address_host:port/)。通常、Webポートは8088です。これにはhttp://resourcemanager_host:8088/を打つことができます。
STARTED、RUNNING、FAILED、SUCCEEDEDなどのさまざまな状態のすべてのアプリケーションのリンクがあります
各アプリケーションのリンクをクリックすると、すべての統計情報(コンテナの数mapreduce)、メモリ/ Vcor​​es、実行時間、さらに多くの統計情報)を取得します。

多くの統計情報はResourceManager REST APIによって公開されています。ここをクリックしてくださいhttps://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html

+0

ジョブが完了するとWeb UIが閉じます。ジョブが完了した後に私がアクセスできる情報(多分いくつかのログファイルで)を得る方法はありますか? – alpha

+0

@alphaどのようにしてジョブをクラスタに提出していますか? –

+0

現在、PythonでHadoopストリーミングを使用していますが、Javaコードの記述に切り替える予定です。 @ Shubham – alpha

0

jobtracker(デフォルトでポート50030で実行)に行き、ジョブの詳細を確認できます。これは、マップ時間と減少時間のカウンタを示しています。さらに、個々のタスクに興味がある場合は、「ベストプラクティスと最悪の実行タスクを示すこのジョブの分析」リンクをたどることができます。

+0

ジョブが完了した後でも情報を取得できますか? – alpha

+0

ジョブトラッカーが履歴を管理している限り、この情報を見ることができます。私は、歴史を支配する密輸については確信が持てません。 – Amit