2017-11-18 3 views
1

私はiTextSharpを使ってPDFからコンテンツを取得しています。どの検索エンジンでも同じように、ユーザーがPDFを検索できるようにしたい。検索で最も関連性の高い結果が返されます。私は関連する結果を返すために文書にTF-IDFアルゴリズムを実行するライブラリを作成しました。これが機能している間、私は車輪を再発明しているように感じる。C#PDFを検索する

このユーザーは50,000を超えるPDFを検索することができます。だから彼らの多くがあります。私はそれが高価であると感じるように私のデータベースにPDFの完全な内容を保存したくありません。これを軽減するために、TF-IDFを計算する際に度数分布を受け入れるようにライブラリを作成しました。これにより、検索が実行されるたびにではなく、システムにPDFが追加されたときにPDFを読むことができます。

すでにこの種のことを行っているライブラリはありますか?

答えて

0

Lucene.NETは必要な処理を行います。

「SearchUnit」のような商用のものがあります