文書クラスタリングのためにSparkで複数のテキストファイルを読むには？

-1

ドキュメントクラスタリングのために複数のテキストドキュメントをディレクトリから読み込みたい。そのためには、私のようにデータを読みたい：ここ文書クラスタリングのためにSparkで複数のテキストファイルを読むには？

SparkConf sparkConf = new SparkConf().setAppName(appName).setMaster("local[*]").set("spark.executor.memory", "2g"); 
JavaSparkContext context = new JavaSparkContext(sparkConf); 
SparkSession spark = SparkSession.builder().config(sparkConf).getOrCreate(); 
Dataset<Row> dataset = spark.read().textFile("path to directory");

、私は
JavaPairRDDデータ=のcontext.wholeTextFiles（パス）を使用する必要はありません。私は戻り値の型としてDatasetが必要なので、です。あなたはエンコーダーを使用する必要がJavaで

context.wholeTextFiles("...").toDS()

：あなたがこれを書くことができるScalaで

出典

2017-12-12 Sandeep Joshi

。 the javadoc for more detailを参照してください。

JavaPairRDD<String, String> rdd = context.wholeTextFiles("hdfs:///tmp/test_read"); 
Encoder<Tuple2<String, String>> encoder = Encoders.tuple(Encoders.STRING(), Encoders.STRING()); 
spark.createDataset(rdd.rdd(), encoder).show();

出典

2017-12-12 14:29:25 Oli

文書クラスタリングのためにSparkで複数のテキストファイルを読むには？

答えて

関連する問題