1
スパークの開始方法flatmap
またはexplode
のデータフレームの作成方法をご希望ですか?スパークデータフレームのフラット化
それはdf.groupBy("columName").count
を使用して作成され、私はそれを収集する場合は、以下の構造を有した:
[[Key1, count], [Key2, count2]]
しかし、私はむしろ何かを達成するための適切なツールである何
Map(bar -> 1, foo -> 1, awesome -> 1)
のようなものを持っていると思いますこのような?フラットマップ、爆発など何か?
コンテキスト:spark-jobserverを使用します。後者の形式でデータを提供する場合に意味のある結果(例:json serializationなど)があるようです
ありがとうございました。それはまさに私が望むものです。 –
残念ながら(現在のフォーマットはhttps://github.com/spark-jobserver/spark-jobserver/blob/master/job-server-tests/src/spark.jobserver/WordCountExample.scalaと同じですが、WordCountの例 –
「まだJSONではなく、私のマップを受け取っています」とはどういう意味ですか?どこですか?サーバーのREST APIを使用してジョブを実行していますか(たとえば、 'curl'を使用していますか? )、それともあなた自身がメインジョブを実行していますか?それが後者の場合はもちろん、JSONではなくマップを取得します。メソッドを呼び出して 'Map'を返すと' Map'を返します。マジックはありません。REST APIを介して –