yarn

    0

    1答えて

    Hadoopクラスター(2.4.2)でSpark(1.6.1)を使用してPythonスクリプトを実行しようとしています。クラスタは、Ambari(2.2.1.1)を使用してインストール、設定、および管理されました。 私は4ノード(各40Gb HD-8コア - 16Gb RAM)のクラスタを持っています。 私のスクリプトではsklearn lib:を使用しています。これをsparkで並列化するには、

    1

    2答えて

    私はSparkの完全な初心者です。私はCDH配布を使ってhadoopをインストールしないで、より長いパスを選択しました。Apache WebサイトからHadoopをインストールし、設定ファイルを自分で設定して、基本についてもっと理解しました。 は私が3ノードクラスタ(すべてのノードは、ESXサーバから作成したVMマシンです)を設定しています。 私はzookeeperメカニズムを使ってNamenod

    0

    2答えて

    SparkのスタンドアロンモードのWeb UIでアプリケーションの実行情報を詳細に見ることができますが、糸になると消えてしまいます。だから、ジョブが糸で走っているときの実行情報はどこで確認できますか?

    2

    1答えて

    私の事業者が殺されたとき、私は時折、ウェブUIから次のログを見ています。コンテナのネゴシエーション時にYARNと通信するために使用されるメモリ設定を制御できる方法はありますか? コンテナヒープと最大メモリの一般的なYARN設定は、Apexメモリ割り当てモデルにどのように関連していますか。次のように私は、Web UIに表示さ 情報メッセージは以下のとおりです。 Container [pid=1469

    3

    2答えて

    SparkPiの例を8ノードクラスタに展開しました。この例に関連するタスクは、クラスタが十分に活用されていなくても(他のジョブは実行されていなくても)、クラスタ内のすべてのノードに配備されていないようです。ここで は私がSparkPi例始めています方法は次のとおりです。 私はこれがある感じを持っている:私は、ノードが利用されているかを見ると、しかし spark-submit --class org

    1

    1答えて

    新しいノードがAmbariクラスタに追加されるたびに実行されるシェルスクリプトをどこかで指定することは可能ですか? 私はそれにHDP Ambariを使用しています。新しいノードの設定が完了したらシンボリックリンクを追加したいと思いますが、私(または他の誰か)がそれを忘れないように自動化したいと思います。

    5

    1答えて

    私はSparkのFAIRスケジューリングモードの内部を理解したいと思います。事はそれ一つはofficial Spark documentationに応じて期待通りそう公平ではないようだということです。 スパーク0.8以降で、ジョブ間の公平な共有を設定することも可能です。公平な共有の下で、Sparkはジョブ間で「ラウンドロビン」方式でタスクを割り当てます。その結果、すべてのジョブがほぼ同等のクラスタ

    0

    1答えて

    VMWareワークステーションでCloudera Manager 5.4.1を使用して2ノードクラスタを実装しました。これにはHbase、Impala、Hive、Sqoop2、Oozie、Zookeeper、NameNode 、セカンダリ名とYARN。 ノードあたり3台のディスクドライブをシミュレートしました.SDAには、OS用にsdb & sdc(Hadoopストレージ用)が含まれています。 私

    2

    2答えて

    HadoopでI/O(HDFSから読み込む)を実行するときにマップと縮小にかかる時間を測定したいと思います。私は糸を使用しています。 Hadoop 2.6.0。 そのオプションは何ですか?

    4

    1答えて

    SASLがYARNのSpark 1.6.1で動作するようになったのだろうか? spark.authenticate.enableSaslEncryption=true spark.network.sasl.serverAlwaysEncrypt=true spark.authenticate=true しかし http://spark.apache.org/docs/latest/sec