Apache Spark Count by Groupメソッド

DatastaxとSparkを使用してCassandraテーブルの特定の列（列「a」）の値とカウントのリストを取得したいが、実行する正しい方法を決定できないその要求。私は基本的に同等のものをやろうとしているApache Spark Count by Groupメソッド

私はこれは私を与えることになりますカサンドラ

import com.datastax.spark.connector._ 
import org.apache.spark.sql.cassandra._ 
val rdd = sc.cassandraTable("mykeyspace", "mytable").select("a") 
rdd.groupBy(row => row.getString("a")).count()

にdatastaxと火花を使用して、次の試してみた

SELECT a, COUNT(a) 
FROM mytable

T-SQL a列の個別の値の数ですが、値のリストとその値の数の後にはもっと多くなりました（val1：10 ... val2：5 ... val3：12 ...など）。私はいくつかの.collectなどを試してきましたが、リストをそこに取得する方法がわかりません、どんな助けもありがとうございます。

出典

2017-10-02 ChrisHDog

それは私がよりよい解決策があると仮定していますが、これは仕事に見えます

import com.datastax.spark.connector._ 
import org.apache.spark.sql.cassandra._ 
val rdd = sc.cassandraTable("mykeyspace", "mytable").groupBy(row => row.getString("a")) 
rdd.foreach{ row => { println(row._1 + " " + row._2.count(x => true)) } }

（よりよい解決策である可能性があり、それは正しいデータを提供していますが、）これは、部分的な答えかもしれないように思えます結果を得るためには

出典

2017-10-02 05:20:47 ChrisHDog

以下のコードスニペットは、 "a"という名前のパーティションキーを取得し、 "column_name"でその列を取得し、その数を求めます。

val cassandraPartitionKeys = List("a") 
val partitionKeyRdd = sc.parallelize(cassandraPartitionKeys) 

val cassandraRdd = partitionKeyRdd.joinWithCassandraTable(keyspace,table).map(x => x._2) 

cassandraRdd.map(row => (row.getString("column_name"),1)).countByKey().collect.foreach(println)

出典

2017-10-03 10:38:06 Knight71

Apache Spark Count by Groupメソッド

答えて

関連する問題