私はPDFファイルからテキストを抽出しようとしています:http://www.filedropper.com/copy_1、しかし、私はページからのテキストの半分以下を取得します。 私はiTextSharpを使用しています:PDF抽出が完了しません
は私も代わりに、デフォルトのLocationTextExtractionStrategyのSimpleTextExtractionStrategyを使用していたPdfReader reader = new PdfReader(file);
string currentText = PdfTextExtractor.GetTextFromPage(reader, 1);
:ファイルは、もともとマイクロソフトレポートサービスから生成された
PdfTextExtractor.GetTextFromPage(reader, 1, new SimpleTextExtractionStrategy())
(これに私が持っていません私はテキスト抽出をテストするために1ページを抽出しました。
誰でも手伝ってもらえますか?
PDFには、PDF仕様に従ってテキスト抽出に必要な情報が含まれていません。あなたが紛失しているテキストセクションについては、Adobe Readerからコピー&ペーストを試してください。失敗しても表示されます。 Microsoft Reporting Serviceは、テキスト抽出には不十分なPDFを作成する長い歴史を持っています。 – mkl
さらに、コードを投稿する場合は、賢明な方法で行ってください。あなたが投稿したコードは、PDFリーダーと何も使用されていない抽出戦略を作成し、テキスト抽出プログラムは、デフォルトの抽出戦略を使用していくつかのスタンパーのリーダーから抽出します... – mkl
答えをありがとう。私は、あなたが尋ねたように、無意味なコードを修正しました。 アクロバットリーダーが表示する情報(数値など)を含むことはできませんか? – Hefass