2009-05-06 9 views
2

PDFのすべてのページからテキストを取得できるかどうかを確認しています。検索可能なPDFファイル(画像+テキストPDF)

しかし、500〜2000ページ以上のPDFが含まれているテキストを抽出しようとすると、すべてのページを確認するのが永久になるようです。

PDFに1ページ分のテキストを含めることは可能ですが、残りのページには含めることはできませんか? 私はここでやろうとしていますと、PDFの最初のページにテキストが含まれている場合、それは他の検索可能なPDFではない、ということです。..

答えて

0

は、WordやPDF文書を検索することができた、Searcharooのこのバージョンをお試しください。

+0

@Chris:「検索可能なPDF」は、ファイルシステムからではなく* PDF内のテキストを検索できるものです。 – Sung

2

はい、あるページにテキストを含めることは可能ですが、残りのページにはテキストを含めることはできません。最初の499ページに画像が含まれているが、最後のページにテキストが含まれている500ページのPDFを作成することができます。

PDFファイルを自分で開き、テキスト/テキスト操作をスキャンする場合を除き、PDFからテキストを抽出できる既存のサードパーティのPDFライブラリを使用する必要があります。

また、ferruccioの関連questionへのレスポンスも参照してください。これは、特に検索インデックスとテキスト抽出用に作成されたIFilterインターフェイスを使用することです。

関連する問題