mongo dbコレクションからデータフレームを読み込んでデータフレームを呼び出すことができます。私はmongo spark connectorをこれに使用しました。Dataframeのテキスト列から単語を抽出して文書の単語辞書を作成する
これで、単語をドキュメントにマッピングする単語辞書を作成するために、データフレームのテキストフィールドに単語を抽出します。
したがって、基本的に、抽出された単語はキーであり、値は文書のdocIdになります。
データフレームのテキスト列から単語を解析して抽出する方法がわからないため、対応する文書に対応付けることができます。
マッピングした後、私はその単語を含む文書のリストとしてキーと値としての単語を持つように、それらを減らしたいと思います。
データフレームのテキスト列から単語を抽出するアプローチ/コードを手伝ってもらえますか?
ご回答いただきありがとうございます。私の必要条件は、ユーザーが入力するたびにGoogle Suggestに似たユーザーに自動提案を提供するために、入力されたコレクションを使用することです。 Mongo DB Text $ textでは、文書の特定のテキストを検索することはできますが、ユーザーに単語のリストを提供することはできません。私の組織では企業の意思決定があるため、ElasticSearchを使用することはできません.Mongo DBの機能を活用してこの要件を満たす必要があります。 – Jbaur
私はプリーを入力すれば、それは私が遊ぶことを示唆しますか?または、プレイ、プレイヤー、プレーしているドキュメントのタイトルを設定したいですか?または、mongodbにタイトルだけでなく作業内容を探すために、mongodbがドキュメントの内容を調べるようにしますか? –
ユーザーが 'A'を入力すると、Aで始まる単語は、ソースコレクションから単語を抽出して作成されたインデックス付きコレクションからフェッチされます。索引付けされたコレクションには、抽出された単語の値として「_id」フィールドを持つ文書があります。他のフィールドは、このフィールドを持つ文書の文書IDです。これは、正規表現のようなクエリで行うことができます。返された単語はユーザーに送信されます。ユーザーが単語を選択すると、索引付けされたコレクション内の単語を検索し、そこからドキュメントの場所を取得し、ソースコレクションを照会して実際のドキュメントを取得します。 – Jbaur