平均的な長さの約10,000〜7-20語のフレーズがあるとします。私が探しているフレーズにはいくつかの誤りがあるかもしれません。例えば、1つまたは2つの単語が欠けている、いくつかの単語が間違っている、またはいくつかのランダムな単語があります。 「私は私の青い自転車に乗っていたので、クリスティーヌを見ました」、または「私は自転車に乗っていました。私はクリスティンとマリオンを見ました」この問題に対する良いアプローチは何でしょうか?私はLevenhsteinの距離について知っていますが、私はこの問題には簡単で良い解決策がないとも考えています。ファジー文の検索アルゴリズム
3
A
答えて
1
良いテキスト検索エンジンは、あなたが説明するような機能、fshを提供します。典型的なアプローチは、単語のいずれかが発生した場合に一致するクエリを作成し、互いに近接して発生し、発生確率に反比例して重み付けされた用語の数に基づく重みを使用して結果を順序付けすることである。偶然に共起する可能性が高い。情報検索と呼ばれるこのようなことに関する理論は全部ありますが、おそらくあなたはそれについて知っています。さらに、大文字小文字や句読点などを正規化し、いくつかの基本的な言語変換(ステミング)を適用し、場合によっては類義語の辞書を導入することによって、単語知識の曖昧性が説明されるようにしたいそれを調整するために利用可能です。
オープンソースの検索エンジンを試してみると、this article by Vikは2009年の観点から妥当な調査を行い、this one by Middleton and Baeza-Yatesはそのトピックについての詳細な説明を提供します。
関連する問題
- 1. 文字列のファジー検索
- 2. IndexedDBファジー検索
- 3. Neo4jファジー検索
- 4. Mongodbでファジー検索?
- 5. Solzzでのファジー検索
- 6. luceneによるファジー検索
- 7. 軽量ファジー検索ライブラリ
- 8. 文字列検索アルゴリズム
- 9. 検索文字列アルゴリズム
- 10. ディレクトリ内のすべてのファイルにctrlpファジー検索文字列
- 11. Rails thinking_sphinxファジー検索の問題
- 12. LINQでの許し/ファジー検索
- 13. SolrNetファジー検索複数の単語
- 14. 二重ポストグルでのファジー検索
- 15. 文字列検索アルゴリズムの実装
- 16. 正しいSolrファジー検索構文は何ですか?
- 17. Elasticsearch Java API - max_expansionによるファジー検索
- 18. Exist DB luceneファジー検索問題
- 19. nGramファジー検索は可能ですか?
- 20. 検索アルゴリズム
- 21. SQLAlchemy検索アルゴリズム
- 22. 検索アルゴリズムは
- 23. .net検索アルゴリズム?
- 24. フットプリント検索アルゴリズム
- 25. 検索アルゴリズム
- 26. テキスト検索アルゴリズム
- 27. ウェブサイトの検索アルゴリズム
- 28. 検索アルゴリズムを利用して文書内を検索
- 29. Rabin-Karp文字列検索アルゴリズム
- 30. 最適点検索アルゴリズムの検索
結果はどうしますか?それらを特定するだけですか? – DMan
好ましくは、これらをキーとして扱い、対応する値を検索したいと思います。本からの文章、そして対応するページ/章を探したいと思っています。 – fsh
また、盗作検出器を探してみてください –