レデューサーの所要時間を計算するhadoop

単一ノードのクラスタでHadoop 2.7.3でMapReduceジョブを実行しています。地図の所要時間を計算し、この仕事の仕事を減らすにはどうすればよいですか？レデューサーの所要時間を計算するhadoop

解決済み この質問を表示している人、または同様の問題に直面している人に役立ちます。 Shubhamの答えと私は少し研究@へありがとう：それはリソースマネージャとアプリケーションのマスターに分割されました。2.

ジョブトラッカーは、Hadoopの中で削除されました。ジョブ履歴サーバ（完成されたアプリケーションやジョブに関する統計情報を表示するために）お使いのブラウザにURLを入力」にアクセスするには
、ブラウザにURLを入力し、「http://localhost:8088」
http://localhost:19888 "

ジョブヒストリーサーバーにアクセスしようとするとエラーが発生する可能性があります。アプリケーションの履歴がないことがわかります。

i. Run the command in your terminal 
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver 
ii. Then run the command 
    jps 
You should be able to see the "JobHistoryServer" in the list 
iii. Now run the command 
netstat -ntlp | grep 19888

：

i. In your terminal, type "nano ~/.bashrc" 
ii. Now in this file, where the other hadoop variables are written add the line 
    export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop 
iii. Exit out of nano and save the file. 
iv. Run the command "source ~/.bashrc"

1.ジョブ履歴サーバ

、手順を開始するには：

変更のbashrcファイル

手順：その場合は以下の手順を実行します。

出典

2017-02-10 alpha

ヒットリソースマネージャのWeb UI（http://rm_http_address_host:port/）。通常、Webポートは8088です。これにはhttp://resourcemanager_host:8088/を打つことができます。
STARTED、RUNNING、FAILED、SUCCEEDEDなどのさまざまな状態のすべてのアプリケーションのリンクがあります
各アプリケーションのリンクをクリックすると、すべての統計情報（コンテナの数mapreduce）、メモリ/ Vcores、実行時間、さらに多くの統計情報）を取得します。

多くの統計情報はResourceManager REST APIによって公開されています。ここをクリックしてくださいhttps://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html

出典

2017-02-10 17:04:11

ジョブが完了するとWeb UIが閉じます。ジョブが完了した後に私がアクセスできる情報（多分いくつかのログファイルで）を得る方法はありますか？ – alpha

@alphaどのようにしてジョブをクラスタに提出していますか？ –

現在、PythonでHadoopストリーミングを使用していますが、Javaコードの記述に切り替える予定です。 @ Shubham – alpha

jobtracker（デフォルトでポート50030で実行）に行き、ジョブの詳細を確認できます。これは、マップ時間と減少時間のカウンタを示しています。さらに、個々のタスクに興味がある場合は、「ベストプラクティスと最悪の実行タスクを示すこのジョブの分析」リンクをたどることができます。

出典

2017-02-10 16:55:29 Amit

ジョブが完了した後でも情報を取得できますか？ – alpha

ジョブトラッカーが履歴を管理している限り、この情報を見ることができます。私は、歴史を支配する密輸については確信が持てません。 – Amit

レデューサーの所要時間を計算するhadoop

答えて

関連する問題