2017-04-07 13 views
0

私はすべての質問に関連するデータベースに存在するすべての文書(pdf/docsなど)内で検索​​する必要があるプロジェクトに取り組んでいました。 私は以前、ドキュメントに関連する関連キーワードを保存している単純な関係を使用しました。クエリにこれらのキーワードが含まれている場合は、それらのドキュメントを取得します。しかし、この方法はあまり信頼できないので、キーワードが誤解を招く可能性があります。ドキュメント内で検索する必要があり、スケーラビリティと時間の複雑さが少ない実用的な検索アルゴリズムを探しています。 どのような提案やリソースも大歓迎です。 ありがとうございます。検索アルゴリズムを利用して文書内を検索

+1

あなたの質問はあまりにも曖昧ですが、私はApache Luceneがすばらしい検索ライブラリであることを知っています。あなたはそれを調べて、使用しているアルゴリズムを見つけるかもしれません。 –

+0

@AbdenaceurLichiheb、どの部分があなたを混乱させましたか、私は図書館を使いたくないので、自分でアルゴリズムを実装したいと思います。 – Atul

+0

ええ、そういうわけで、「アルゴリズムを使用しています」と言っている理由は、素晴らしいアルゴリズムを使用していますが、データ科学のバックグラウンドを持つ必要があると思います。 –

答えて

0

お試しRabin-Karp(ハッシュコードに基づいて)検索アルゴリズム。多くのドキュメントで複数のパターンを検索する必要があるので、すべてのパターンのハッシュコードを取得し、すべてのパターンを一度に探します。

+0

非常にたくさんの文書を繰り返し検索しているとかなり高価になります。 100万件の文書を検索しているときのファイルI/O時間は過度になります。多数のドキュメントでは、ある種のインデックスを構築するためにデータを前処理する必要があります。 –