私はSparkの完全な初心者です。私はCDH配布を使ってhadoopをインストールしないで、より長いパスを選択しました。Apache WebサイトからHadoopをインストールし、設定ファイルを自分で設定して、基本についてもっと理解しました。Spark JobsをSpark Clusterに送信する
は私が3ノードクラスタ(すべてのノードは、ESXサーバから作成したVMマシンです)を設定しています。 私はzookeeperメカニズムを使ってNamenodeとResourceManagerの両方の高可用性をセットアップしました。 3つのノードはすべてDataNodeとしても使用されています。
以下のデーモンが、私はノードが非常に最小限のハードウェア構成(4GM RAMそれぞれ20ギガバイトのディスクのある名前ノード1 にNNとRMのセットアップHAを持っている3つのノードすべて
Daemon in Namenode 1 Daemon In Namenode 2 Daemon in Datanode
8724 QuorumPeerMain 22896 QuorumPeerMain 7379 DataNode
13652 Jps 23780 ResourceManager 7299 JournalNode
9045 DFSZKFailoverController 23220 DataNode 7556 NodeManager
9175 DataNode 23141 NameNode 7246 QuorumPeerMain
9447 NodeManager 27034 Jps 9705 Jps
8922 NameNode 23595 NodeManager
8811 JournalNode 22955 JournalNode
9324 ResourceManager 23055 DFSZKFailoverController
渡って実行されていますスペース)しかし、これらはテスト目的のためのものです。だから私はそのokと思う。
NameNode 1にSpark(インストールされているHadoop 2.7と互換性のあるバージョン)をインストールしました。Spark-shellをローカルで起動し、基本的なscalaコマンドを実行してRDDを作成し、また、Yarn-ClusterおよびYarn-Clientの展開モードとしてSparkPiのサンプルを実行してテストすることもできます。すべてうまくいいです。
今私の問題は、リアルタイムシナリオでは、私たちは、ローカルマシンに(Javaの、スカラ座やPY)ベースのコードを記述しようとしているされた(未Hadoopクラスタを形成するノードで)。私のHAクラスタと同じネットワークに別のマシンがあるとしましょう.Yarn-Clusterにジョブを提出するにはどうすればいいですか?(ホストがSparkPiを送信しようとしていますか?私はこれをします ?私は信じて
は、SPARKは(私の仮定が正しいです)私はから私のコードを書いていますマシンにインストールする必要があり、何火花はHAクラスタにインストールする必要はありません。私はまた、提出されたジョブの出力を、それが提出されたホストに戻したいと思っています。私はこの仕事をするために何をする必要があるか分かりません。
私はこれまでにスパークジョブサーバーを聞いたことがあります。これはすべてこれを稼働させるために必要なものですか?私はあなたがこの混乱で私を助けることができると信じています。私はちょうどこれを行うために従うべきステップを明確に指定する文書を見つけることができませんでした。 WindowsベースのマシンからUNIX環境のHAクラスタ設定にジョブをサブミットできますか?
これをクライアントマシンまたはHadoop Clusterにインストールする必要があるかどうかを確認できますか。また、私は間違っていない場合は、クライアントマシンにのみインストールする必要がありますと信じて –
はい、スパークは、あなたがSpark JobServerを実行する予定のマシンにインストールする必要があります。しかし、強力なネットワーク制限がない限り、クラスタ内でSJSを実行する必要はありません。 – noorul
リモートマシンからYarn Clusterにスパークジョブを送信する方法を説明するサイトへの参照はありますか。私が見つけたポストの大部分はlocalhost(スタンドアロンサーバーにジョブを送信する)を使用しています –