起動時にSparklyrのSpark関数を呼び出す方法

RStudioのSparklyrでinvokeを使用して、HDFS内のテキストファイルの単語カウントを単純にしていますが、構文を理解できませんでした。私は、（拡張のSparklyRドキュメントのカウント例と同様に - http://spark.rstudio.com/extensions.html）を使用して、バックリストとしてファイル全体を取得することができます。起動時にSparklyrのSpark関数を呼び出す方法

getFileCollect <- function(sc, path) { 
    spark_context(sc) %>% 
     invoke("textFile", path, 1L) %>% 
     invoke("collect") 
} 

fc <- getFileCollect(sc, "hdfs:///tmp/largeTomes/bigEx.txt")

私がやりたいために、そのテキストファイルにflatmapです古典的なスカラコード：

.flatMap(line => line.split(" ")) 
      .map(word => (word, 1)) 
      .reduceByKey(_ + _)

しかし、呼び出しの構文を把握することには至っていません。 flatMapはtextFileのメソッドです。確かに誰かがこれを前にしているし、私はちょうど考えていない。

ありがとうございました！

出典

2017-04-25 Dan F

はたぶん、あなたは（それが数ヶ月されている）、それを考え出したが、dplyrで収集し使用するために、あなたはそれをそのように配置する必要があります：

myFileCollected <- myFileDF %>% collect

それから私はdplyr機能を使用しようと、すなわち突然変異（sparklyrの利点の1つ）である。

出典

2017-07-19 11:45:18 rcid

起動時にSparklyrのSpark関数を呼び出す方法

答えて

関連する問題