2016-06-14 12 views
1

私はSparkをスタンドアロンモードで実行しましたが、今はデータを使用して処理しましたが、同じパスのすべてのノードでコピーする必要があります。次に、cassandraファイルシステム(CFS)すべてのノード間のデータ。 しかし、スパーク・ジョブを実行して、別のノードでcassandra鍵スペース/テーブル・データを使用するにはどうすればよいですか? Cassandraテーブルをすべてのノードからアクセス可能にするにはどうすればよいですか?cassandraファイルシステムを使用してスパークする

+0

あなたが達成しようとしているものを詳しく説明していただけますか?スパークジョブでデータをcassandraデータベースに保存していますか?また、分散データベースであるため、本質的には、cassandraはレプリケーションファクタに基づいてすべてのノード間でデータを共有します。 –

+0

私は3台のcassandraノード(マシン)を持っています。私は 'sc.cassandraTable(" kv "、" tb ")でsparkでデータを読み込みたいのですが、どうすればsparkconfを設定できますか? '新しいSparkConf(真) .set(" spark.cassandra.connection.host "、"どのノードip ")' 置き換える必要があるのはどのcassandra IPですか? – Hamid

+0

コンマで区切られた3つのIPをすべて使用します。 –

答えて

0

最初の接点のカンマ区切りのリストを指定する必要があります。コネクターは、clusterのメタデータを読み取って、cassandraクラスター内のすべてのノードを検索します。

val conf = new SparkConf(true) 
    .set("spark.cassandra.connection.host", "192.168.123.10,192.168.123.110") 

パラメータの詳細については参照してください - spark cassandra connector doc

関連する問題