2016-07-13 10 views
0

ファイルデータを解析するsparkアプリケーションを作った。入力ファイルのデータサイズが大きいので、アプリケーションをスタンドアロンとして実行するだけでは不十分です。物理マシンがもう1台あれば、そのアーキテクチャをどうすればいいですか?クラスタのためのスパーク環境を作る

私はクラスタマネージャにはmesosを使用しますが、hdfsではかなりnoobieを使用することを検討しています。 hdfsなしで(ファイルデータを共有するために)作成する方法はありますか?

+0

[こちらの記事](https://mesosphere.com/blog/2015/08/14/powering-big-data-with-spark-and-hdfs-on-apache-mesos/)をご覧ください。 )。 Mesos + HDFS + Sparkを設定する方法を示しているので、あなたの質問には答えません。 – janisz

答えて

0

スパーク維持カップcluster modes。糸、メゾ、スタンドアロン。スタンドアロンモードから始めることができます。これは、クラスタファイルシステムで作業することを意味します。

Amazon EC2で実行している場合は、following articleを参照すると、Sparkクラスタを自動的にロードするSparkビルトインスクリプトを使用できます。

次のようにスタンドアロンモードで実行する方法があり、オンプレム環境で実行されている場合:

スタンドアロンマスター-Start

./sbin/start-master.sh 

-Theマスターが火花をプリントアウトします:// HOST:自身のためのPORT URL。クラスタ上の各ワーカー(マシン)のために、次のコマンドでURLを使用します。

./sbin/start-slave.sh <master-spark-URL> 

を作業員がクラスタに追加されたことを検証するため-In、あなたは以下のURLを参照してもよい:あなたのマスターにhttp://localhost:8080クラスタとその作業者に関する詳細情報を表示するSpark UIを取得します。

さらに多くのパラメータがあります。詳細はこちらを参照してくださいdocumentation

私は助けてくれることを願っています! :)

関連する問題