-1
私は別個のカウントとカウントを同時にしたいと思います。 簡単な例を使って説明しましょう。ので、ここで(私は単語が表示される時間の数を計算することができ、ワード数例でApache Spark:別個のカウントを行い、一緒に数えますか?
//type;count;distinct-count
arbre;9;3
fruit;5;4
sport;3;3
:、私はそれを取得したい出力として
arbre;pommier
fruit;pomme
fruit;pomme
fruit;fraise
fruit;ichigo
arbre;cerisier
arbre;abricotier
sport;foot
sport;rugby
arbre;abricotier
arbre;abricotier
arbre;bananier
fruit;ananas
sport;basket
arbre;abricotier
arbre;abricotier
: は、ここに私の入力データでありますカウントです)。そして関数distinct().groupeByKey()
では、私は別個のカウントを計算することができます(ここでは別個のカウントです)。
しかし、私は同じRDD上でそれを行う方法を理解することはできません.2つの別々のRDDではできません。
この件に関するアイデア、ドキュメント、リンクがあれば、私は非常に感謝しています。
これは私が探していますものです。私がJavaでそれをどうやってやれるか知っていますか? –
さらに、結果は私が持っていたいと思うrddではないようです。私は正しい? –
結果はデータフレームで、.rdd()関数を使用してrddに変換できます –