2016-05-17 2 views
0

PDFファイルのリスト内の特定の単語を検索するC#アプリケーションを開発しています。 結果は次のようになります。 1)単語が見つかったPDFファイル。 2)その単語が見つかったPDFのページ。 3)単語が見つかったテキストの一部を取り出し、その単語を強調表示します。C#とSQL Serverを使用して特定の単語をPDFで検索する

私は以下のいくつかの解決策は、私の研究で発見した

- varbinary型としてSQL ServerにPDFファイルを挿入し、SQL Serverのフルテキスト検索を使用します。 - SQL SERVERのFiletablesリソースとSQL SERVERの全文検索を使用します。 - PDFファイルを物理フォルダにアップロードし、ITextSharpプラグインを使用してタスクを実行します。

このような経験をお持ちの方、どうすればこのことができますか? ありがとうございます!

答えて

0

PDFをリアルタイムで読む方法や、検索要求前にテキストをデータベースに保存する方法があります。 PDFのテキストコンテンツは、バイナリデータとしてエンコードされることがあるため、PDFフルテキストをPDFコンテンツに直接使用することはできません。

データベースアプローチを使用する場合は、参照する個別のPDFページごとに行があるテーブルを作成する必要があります。

+0

SQL Serverのファイルテーブルはどうですか? https://msdn.microsoft.com/pt-br/library/ff929144(v=sql.120).aspx – xandeq

+0

ファイルテーブルでは、SQL Serverはフォルダに格納されている通常のファイルを見ることができます。 varbinaryとしてテーブルにダンプされているのか、ファイルテーブルによってダンプされているのかは依然としてバイナリです。 filetablesを使用することは、テキストを抽出するためにファイルをDECODEするという "コア"要件には何の利点も与えません。 –

関連する問題