2017-03-01 11 views
0

を作成し、私はタイプと説明テキスト実際にカウント言葉スカラ座とdictionnary

type ; text 
    0 ; hello world 
    0 ; hello text 2 
    1 ; text1 
    1 ; text 
    2 ; world base 
    2 ; Hey you 
    2 ; test 

でcsvファイルを持って、私はdictionnaryを作成して、独自のラインで、このような構造別のCSVファイルを持つようにしたいです私は多くの文字列と私のcsvファイルで行のトンを持っているそれぞれのタイプと説明

type ; hello ; world ; text ; 2 ; text1 ; base ; hey ; you ; test 
    0 ; 2 ; 1 ; 1 ; 1 ; 0 ; 0 ; 0 ; 0 ; 0 
    1 ; 0 ; 0 ; 1 ; 0 ; 1 ; 0 ; 0 ; 0 ; 0 
    2 ; 0 ; 1 ; 0 ; 0 ; 0 ; 1 ; 1 ; 1 ; 1 

上の各単語の度数の、これは単なる一例です。

最近、スパークとスカラで作業するようになりました。助けが必要です。

おかげ

答えて

1

試してみてください。

import org.apache.spark.sql.functions._ 

df.withColumn("text", explode(split($"text", "\\s+"))) 
    .groupBy("type") 
    .pivot("text") 
    .count.na.fill(0) 
+0

それは、CSVファイルWIH動作しますか? – ben

+3

これは実際の回答ではありません。良い答えは、その解決策が元の問題をどのように解決するかを説明しようとします。 – theMayer