Spark SQLを使用してテキストコンテンツをトークン化しますか？

私は、apache sparkとmongodbを使用して文書に単語の辞書を作成するための要件を実装する作業を行っています。Spark SQLを使用してテキストコンテンツをトークン化しますか？

私のシナリオでは、各文書にいくつかのテキスト型フィールドと文書の所有者のフィールドがあるmongoコレクションがあります。

私はコレクションドキュメントのテキストコンテンツを解析し、単語をドキュメントフィールドと所有者フィールドにマッピングする辞書を作成します。基本的には、のキーは単語となり、の値は_idとの所有者フィールドになります。

アイデアは、ユーザーがユーザーのドキュメントに基づいてUIのテキストボックスに入力するときにユーザーに固有の自動提案を提供することです。ユーザーは複数のドキュメントを作成でき、複数のドキュメントに1つの単語を含めることはできますが、1人のユーザーだけがドキュメントを作成できます。

私はmongo sparkコネクタを使用しました。私はspark sqlを使用してデータフレームにコレクションドキュメントを読み込むことができます。

データフレーム列の1つにあるテキストデータを処理して、その単語を抽出する方法がわかりません。

/トークン化単語を抽出し、 _idと所有者フィールドにマッピングし、別のコレクションに結果を書き込むために、データフレームの列内のテキストコンテンツを処理するために、スパークSQLを使用した方法はあります。

もしそうでなければ、誰かが私にそれを達成するための正しいアプローチ/手順を教えてもらえますか？

2017-05-07 fezdonna

スパークはトークン化やその他のテキスト処理タスクをサポートしていますが、コアライブラリにはありません。スパークMLlibをチェックアウト： https://spark.apache.org/docs/2.1.0/ml-guide.html

などのようなデータフレーム上で動作し、正確トランスフォーマー：
https://spark.apache.org/docs/2.1.0/ml-features.html#tokenizer

2017-05-08 06:49:06

答えて