-1
JavaRDD<String> input = sc.textFile("data.txt");
上記のSparkのサンプルコードでは、文字列の分散リストを返すことがわかります。しかし、そのリストの個々の文字列はline
またはword
のdata.txtのトークンですか?spark sc.textFileはどのように機能しますか?
JavaRDD<String> input = sc.textFile("data.txt");
上記のSparkのサンプルコードでは、文字列の分散リストを返すことがわかります。しかし、そのリストの個々の文字列はline
またはword
のdata.txtのトークンですか?spark sc.textFileはどのように機能しますか?
rdd
の文字列は、data.txtの行と同じです。
data.txtファイルのデータが何らかのタイプのcsvデータである場合は、データを列に分割するパッケージspark-csv
を使用することができます。そのため、自分で行を解析する必要はありません。