yarn

6熱

4答えて

私はhadoop2.2.0を3つのクラスタに設定しました。すべてがうまくいっています。 NodeManagerとDatanodeは各クラスタで開始されます。私はWORDCOUNT例を実行した場合でも、100％のマッピングが行われ、それが例外を以下与える： map 100% reduce 0% 13/11/28 09:57:15 INFO mapreduce.Job: Task Id : atte

6熱

2答えて

既存のMapReduceとYARN（MRv2）の相違点

既存のMapReduceとYARNの違いは誰にも分かりません。 P.S：私はこれらの間の比較のようなものを求めています。ありがとうございます！

8熱

2答えて

YARNクラスタモードでバインドするためにspark use/etc/hostsファイルを作成する

2つのインセットを持つマシンにスパーククラスタをセットアップします。クラスタ内の/ etc/hostsファイルには、クラスタ内の他のすべてのマシンの内部IPがあります。これしかし私はYARNクライアントモード（pyspark --master yarn --deploy-mode client）でpyspark経由SparkContextを要求したときFQDN INTERNAL_IP 、アッカバイ

9熱

1答えて

YARNのログファイルを保存するには？

突然、私のYARNクラスタが動作を停止しました。私が提出したすべてのものが「終了コード1」で失敗します。私はその問題を追跡したいが、アプリケーションが失敗するとすぐに、YARNはログファイルを削除する。これらのログファイルを保持するためにYARNに調整する必要のある設定の設定は何ですか？

14熱

6答えて

糸ResourceManagerが任意のヘルプ</p> <p>私が実行している以下のバージョンのために事前に

感謝をノードマネージャに接続していませんto http：//：50070 2つのノードが動作していることを正しく確認できました。問題は私がhttp：//：8088に行くときに0のノードが実行されていることを示しています。私は理解しています：8088は、resourcemanagerを反映し、実行中のノードマネージャの数を示しています。デーモンはすべて始まりますが、ノードマネージャはリソースマネ

5熱

1答えて

SparkアプリケーションにYarnクラスタ構成を追加

を直接使用する代わりに、scala sbtアプリケーションでspark on yarnを使用しようとしています。私はすでに遠隔糸クラスターを稼働しており、SparkRの糸クラスター実行スパークジョブに接続できます。しかし、スカラアプリケーションで同様のことをしようとすると、環境変数を糸構成にロードせず、代わりにデフォルトの糸番地とポートを使用することができました。 SBTアプリケーションは、

6熱

3答えて

大きなデータセットでsparkを実行しているときにsparkContextがシャットダウンした

特定のデータサイズ（〜2,5GB）を超えるクラスタでsparkJobを実行すると、「SparkContextがシャットダウンしたためジョブがキャンセルされました」または「executorが失われました"糸guiを見ると、殺された仕事は成功しているのが分かります。 500メガバイトのデータを走らせても問題はありません。私は解決策を探していました： - "期待されているよりも多くのメモリを要求すると、

8熱

1答えて

YARNのジョブの集約リソース割り当て

Hadoopを初めて使用しています。私がジョブを実行すると、そのジョブの総リソース割り当ては251248654 MB-seconds、24462 vcore-secondsと表示されます。しかし、クラスタの詳細を見ると、合計888のVcoresと合計15.90 TBのメモリがあることがわかります。誰が私にこれがどう関係しているか教えてもらえますか仕事のMB秒とVcore秒は何を参照していますか？

6熱

1答えて

Hadoopジョブを終了したユーザー名を見つけよう

Hadoopジョブを犠牲にしたユーザーの名前を見つける方法はありますか？クラスタのルートにはHadoop 2.6.0ノードがありません。そのため、Hadoopコマンドラインツールのみを使用してログを精査することができます。ログを確認して、mapred job -history [jhist file]を試しましたが、ユーザー名が見つかりませんでした。