-1

ドキュメントクラスタリングのために複数のテキストドキュメントをディレクトリから読み込みたい。そのために は、私のようにデータを読みたい:ここ文書クラスタリングのためにSparkで複数のテキストファイルを読むには?

SparkConf sparkConf = new SparkConf().setAppName(appName).setMaster("local[*]").set("spark.executor.memory", "2g"); 
JavaSparkContext context = new JavaSparkContext(sparkConf); 
SparkSession spark = SparkSession.builder().config(sparkConf).getOrCreate(); 
Dataset<Row> dataset = spark.read().textFile("path to directory"); 

、私は
JavaPairRDDデータ=のcontext.wholeTextFiles(パス)を使用する必要はありません。私は戻り値の型としてDatasetが必要なので、 です。あなたはエンコーダーを使用する必要がJavaで

context.wholeTextFiles("...").toDS() 

:あなたがこれを書くことができるScalaで

答えて

0

the javadoc for more detailを参照してください。

JavaPairRDD<String, String> rdd = context.wholeTextFiles("hdfs:///tmp/test_read"); 
Encoder<Tuple2<String, String>> encoder = Encoders.tuple(Encoders.STRING(), Encoders.STRING()); 
spark.createDataset(rdd.rdd(), encoder).show(); 
関連する問題