cassandraファイルシステムを使用してスパークする

私はSparkをスタンドアロンモードで実行しましたが、今はデータを使用して処理しましたが、同じパスのすべてのノードでコピーする必要があります。次に、cassandraファイルシステム（CFS）すべてのノード間のデータ。しかし、スパーク・ジョブを実行して、別のノードでcassandra鍵スペース/テーブル・データを使用するにはどうすればよいですか？ Cassandraテーブルをすべてのノードからアクセス可能にするにはどうすればよいですか？cassandraファイルシステムを使用してスパークする

出典

2016-06-14 Hamid

あなたが達成しようとしているものを詳しく説明していただけますか？スパークジョブでデータをcassandraデータベースに保存していますか？また、分散データベースであるため、本質的には、cassandraはレプリケーションファクタに基づいてすべてのノード間でデータを共有します。 –

私は3台のcassandraノード（マシン）を持っています。私は 'sc.cassandraTable（" kv "、" tb "）でsparkでデータを読み込みたいのですが、どうすればsparkconfを設定できますか？ '新しいSparkConf（真） .set（" spark.cassandra.connection.host "、"どのノードip "）' 置き換える必要があるのはどのcassandra IPですか？ – Hamid

コンマで区切られた3つのIPをすべて使用します。 –

最初の接点のカンマ区切りのリストを指定する必要があります。コネクターは、clusterのメタデータを読み取って、cassandraクラスター内のすべてのノードを検索します。

val conf = new SparkConf(true) 
    .set("spark.cassandra.connection.host", "192.168.123.10,192.168.123.110")

パラメータの詳細については参照してください - spark cassandra connector doc

出典

2016-06-15 06:41:43 Knight71

cassandraファイルシステムを使用してスパークする

答えて

関連する問題