PDFのすべてのページからテキストを取得できるかどうかを確認しています。検索可能なPDFファイル(画像+テキストPDF)
しかし、500〜2000ページ以上のPDFが含まれているテキストを抽出しようとすると、すべてのページを確認するのが永久になるようです。
PDFに1ページ分のテキストを含めることは可能ですが、残りのページには含めることはできませんか? 私はここでやろうとしていますと、PDFの最初のページにテキストが含まれている場合、それは他の検索可能なPDFではない、ということです。..
PDFのすべてのページからテキストを取得できるかどうかを確認しています。検索可能なPDFファイル(画像+テキストPDF)
しかし、500〜2000ページ以上のPDFが含まれているテキストを抽出しようとすると、すべてのページを確認するのが永久になるようです。
PDFに1ページ分のテキストを含めることは可能ですが、残りのページには含めることはできませんか? 私はここでやろうとしていますと、PDFの最初のページにテキストが含まれている場合、それは他の検索可能なPDFではない、ということです。..
は、WordやPDF文書を検索することができた、Searcharooのこのバージョンをお試しください。
はい、あるページにテキストを含めることは可能ですが、残りのページにはテキストを含めることはできません。最初の499ページに画像が含まれているが、最後のページにテキストが含まれている500ページのPDFを作成することができます。
PDFファイルを自分で開き、テキスト/テキスト操作をスキャンする場合を除き、PDFからテキストを抽出できる既存のサードパーティのPDFライブラリを使用する必要があります。
また、ferruccioの関連questionへのレスポンスも参照してください。これは、特に検索インデックスとテキスト抽出用に作成されたIFilterインターフェイスを使用することです。
@Chris:「検索可能なPDF」は、ファイルシステムからではなく* PDF内のテキストを検索できるものです。 – Sung