私は 'csv'ファイルをcassandraのテーブルの以下のロジックに従って生成します。スパークCanssandraデータのためのcsvファイルを生成するためのスクリプト
val df = sc.parallelize(Seq(("a",1,"[email protected]"), ("b",2,"[email protected]"),("a",1,"[email protected]"),("a",2,"[email protected]"))).toDF("col1","col2","emailId")
私はロジック下記のとおり 'CSV' ファイルを生成したいです。 3つの異なる 'emailid'があるので、3つの異なる 'csv'ファイルを生成する必要があります。
3つの異なるクエリのための3つのcsvファイル。
select * from table where emailId='[email protected]' select * from table where emailId='[email protected]' select * from table where emailId='[email protected]'
どうすればいいですか?誰でもこのことを助けてくれますか?
バージョン: スパーク1.6.2 Scalaの2.10
分析:私がデータフレームを持っていれば、私はそれを以下のようなCSVフォーマットに保存できます。 'df.write .format(" com.databricks.spark.csv ")save(path)'しかし、私はループを繰り返し、各emailIdのcsvファイルを生成したいと思います。 – Ramesh