2017-04-25 16 views
0

RStudioのSparklyrでinvokeを使用して、HDFS内のテキストファイルの単語カウントを単純にしていますが、構文を理解できませんでした。私は、(拡張のSparklyRドキュメントのカウント例と同様に - http://spark.rstudio.com/extensions.html)を使用して、バックリストとしてファイル全体を取得することができます。起動時にSparklyrのSpark関数を呼び出す方法

getFileCollect <- function(sc, path) { 
    spark_context(sc) %>% 
     invoke("textFile", path, 1L) %>% 
     invoke("collect") 
} 

fc <- getFileCollect(sc, "hdfs:///tmp/largeTomes/bigEx.txt") 

私がやりたいために、そのテキストファイルにflatmapです古典的なスカラコード:

.flatMap(line => line.split(" ")) 
      .map(word => (word, 1)) 
      .reduceByKey(_ + _) 

しかし、呼び出しの構文を把握することには至っていません。 flatMapはtextFileのメソッドです。確かに誰かがこれを前にしているし、私はちょうど考えていない。

ありがとうございました!

答えて

0

はたぶん、あなたは(それが数ヶ月されている)、それを考え出したが、dplyrで収集し使用するために、あなたはそれをそのように配置する必要があります:

myFileCollected <- myFileDF %>% collect 

それから私はdplyr機能を使用しようと、すなわち突然変異(sparklyrの利点の1つ)である。

関連する問題