ファイルデータを解析するsparkアプリケーションを作った。入力ファイルのデータサイズが大きいので、アプリケーションをスタンドアロンとして実行するだけでは不十分です。物理マシンがもう1台あれば、そのアーキテクチャをどうすればいいですか?クラスタのためのスパーク環境を作る
私はクラスタマネージャにはmesosを使用しますが、hdfsではかなりnoobieを使用することを検討しています。 hdfsなしで(ファイルデータを共有するために)作成する方法はありますか?
ファイルデータを解析するsparkアプリケーションを作った。入力ファイルのデータサイズが大きいので、アプリケーションをスタンドアロンとして実行するだけでは不十分です。物理マシンがもう1台あれば、そのアーキテクチャをどうすればいいですか?クラスタのためのスパーク環境を作る
私はクラスタマネージャにはmesosを使用しますが、hdfsではかなりnoobieを使用することを検討しています。 hdfsなしで(ファイルデータを共有するために)作成する方法はありますか?
スパーク維持カップcluster modes。糸、メゾ、スタンドアロン。スタンドアロンモードから始めることができます。これは、クラスタファイルシステムで作業することを意味します。
Amazon EC2で実行している場合は、following articleを参照すると、Sparkクラスタを自動的にロードするSparkビルトインスクリプトを使用できます。
次のようにスタンドアロンモードで実行する方法があり、オンプレム環境で実行されている場合:
スタンドアロンマスター-Start
./sbin/start-master.sh
-Theマスターが火花をプリントアウトします:// HOST:自身のためのPORT URL。クラスタ上の各ワーカー(マシン)のために、次のコマンドでURLを使用します。
./sbin/start-slave.sh <master-spark-URL>
を作業員がクラスタに追加されたことを検証するため-In、あなたは以下のURLを参照してもよい:あなたのマスターにhttp://localhost:8080クラスタとその作業者に関する詳細情報を表示するSpark UIを取得します。
さらに多くのパラメータがあります。詳細はこちらを参照してくださいdocumentation
私は助けてくれることを願っています! :)
[こちらの記事](https://mesosphere.com/blog/2015/08/14/powering-big-data-with-spark-and-hdfs-on-apache-mesos/)をご覧ください。 )。 Mesos + HDFS + Sparkを設定する方法を示しているので、あなたの質問には答えません。 – janisz