0
RStudioのSparklyrでinvokeを使用して、HDFS内のテキストファイルの単語カウントを単純にしていますが、構文を理解できませんでした。私は、(拡張のSparklyRドキュメントのカウント例と同様に - http://spark.rstudio.com/extensions.html)を使用して、バックリストとしてファイル全体を取得することができます。起動時にSparklyrのSpark関数を呼び出す方法
getFileCollect <- function(sc, path) {
spark_context(sc) %>%
invoke("textFile", path, 1L) %>%
invoke("collect")
}
fc <- getFileCollect(sc, "hdfs:///tmp/largeTomes/bigEx.txt")
私がやりたいために、そのテキストファイルにflatmapです古典的なスカラコード:
.flatMap(line => line.split(" "))
.map(word => (word, 1))
.reduceByKey(_ + _)
しかし、呼び出しの構文を把握することには至っていません。 flatMapはtextFileのメソッドです。確かに誰かがこれを前にしているし、私はちょうど考えていない。
ありがとうございました!