私はApache Spark 2を使ってテキストをトークン化しています。JavaのSpark Datasetからユニークな単語を取得
Dataset<Row> regexTokenized = regexTokenizer.transform(data);
文字列を返します。
Dataset<Row> words = regexTokenized.select("words");
サンプルデータはこのようになります。
+--------------------+
| words|
+--------------------+
|[very, caring, st...|
|[the, grand, cafe...|
|[i, booked, a, no...|
|[wow, the, places...|
|[if, you, are, ju...|
ここでは、すべてのユニークな単語を取得したいと思います。私はいくつかのフィルタ、flatMap、map関数を試してみました。私はスパークには新しいので、私はそれを理解できませんでした。