私はすべての質問に関連するデータベースに存在するすべての文書(pdf/docsなど)内で検索する必要があるプロジェクトに取り組んでいました。 私は以前、ドキュメントに関連する関連キーワードを保存している単純な関係を使用しました。クエリにこれらのキーワードが含まれている場合は、それらのドキュメントを取得します。しかし、この方法はあまり信頼できないので、キーワードが誤解を招く可能性があります。ドキュメント内で検索する必要があり、スケーラビリティと時間の複雑さが少ない実用的な検索アルゴリズムを探しています。 どのような提案やリソースも大歓迎です。 ありがとうございます。検索アルゴリズムを利用して文書内を検索
0
A
答えて
0
お試しRabin-Karp(ハッシュコードに基づいて)検索アルゴリズム。多くのドキュメントで複数のパターンを検索する必要があるので、すべてのパターンのハッシュコードを取得し、すべてのパターンを一度に探します。
+0
非常にたくさんの文書を繰り返し検索しているとかなり高価になります。 100万件の文書を検索しているときのファイルI/O時間は過度になります。多数のドキュメントでは、ある種のインデックスを構築するためにデータを前処理する必要があります。 –
関連する問題
- 1. 文書内の複数の検索語を検索する
- 2. 文字列検索アルゴリズム
- 3. 検索文字列アルゴリズム
- 4. ファジー文の検索アルゴリズム
- 5. HTML DOMを使用して文書内の要素を検索
- 6. 検索アルゴリズム
- 7. SQLAlchemy検索アルゴリズム
- 8. 検索アルゴリズムは
- 9. .net検索アルゴリズム?
- 10. フットプリント検索アルゴリズム
- 11. 検索アルゴリズム
- 12. テキスト検索アルゴリズム
- 13. 検索エンジンを使用してローカルデータベースから文書を検索する
- 14. 最適点検索アルゴリズムの検索
- 15. ソート文書:検索
- 16. A *検索アルゴリズムの使用
- 17. 検索文字列を使用してセルを検索する
- 18. ファイルシステムの文書を検索
- 19. 範囲内を検索するアルゴリズム
- 20. ツリー内でアルゴリズムを検索する
- 21. バイナリ検索ツリー?アルゴリズム
- 22. 検索ロジックとアルゴリズム
- 23. XQueryマルチフィルター検索アルゴリズム
- 24. KMPパターン検索アルゴリズム
- 25. 単語検索アルゴリズム
- 26. Googleパンダ検索アルゴリズム
- 27. 外部検索アルゴリズム
- 28. ウェブサイトの検索アルゴリズム
- 29. 配列をループして文書内のキーワードを検索する
- 30. MongoDB:サブ文書内のキーを持つ文書を検索
あなたの質問はあまりにも曖昧ですが、私はApache Luceneがすばらしい検索ライブラリであることを知っています。あなたはそれを調べて、使用しているアルゴリズムを見つけるかもしれません。 –
@AbdenaceurLichiheb、どの部分があなたを混乱させましたか、私は図書館を使いたくないので、自分でアルゴリズムを実装したいと思います。 – Atul
ええ、そういうわけで、「アルゴリズムを使用しています」と言っている理由は、素晴らしいアルゴリズムを使用していますが、データ科学のバックグラウンドを持つ必要があると思います。 –