2016-09-20 5 views
0

私は、不正な単語を含む文書の束があり、その中に空白があります。これらは検索する重要な単語になる可能性があります。ドキュメントの別のフォーマットを取得する可能性がないので、ドキュメントのインデックスを作成して検索して正しい形の単語を使用して検索する方法があるかどうかを知りたい時間。たとえば、インデックス付きのドキュメントに 'eNgNew'という単語があり、「エンジニア」と入力します。 あなたはelasticsearchでその仕事を達成する方法を知っていますか?特定の文書作成プロセスのために、elasticsearchに空白を含む単語を持つ索引および検索文書

答えて

1

私はNGram tokenizerから始めようとします。トークンは数字と文字のみをトークン化するので、スペースを使用しても一致するものを見つけることができます。

+0

ありがとうVolodymyr!私は主に[この例](https://gist.github.com/polyfractal/4542494)をいくつかの変更を加えて使用して、帯状疱疹の経路を調べました。しかし、私はそれが基本的にあなたの提案のバリエーションであることを理解します。 – panchtox

関連する問題