2011-09-08 17 views
1

PDF文書の内容を読み込もうとすると問題が発生します。私は、JavaとiTextの2.1.7を使用している、と私は、PDF文書の内容を分析する必要があります。最初に私はPdfTextExtractorさんgetTextFromPage方法を使用していたし、それが正しい仕事をしていたが、場合にのみ、ページが単なるテキストである場合、イメージが含まれている場合、getTextFromPageで取得する文字列は無意味なシンボル(おそらく異なる文字エンコーディング?)のセットであり、ページ全体の内容が失われます。私はiTextの最後のバージョンで試してみましたが、うまくいきましたが、私が間違っていなければライセンスは完全に無料ではありませんでした(商用の顧客のWebアプリケーションで作業しています。それを使用することはできません。あなたは何か提案があれば本当に感謝します。あなたがそれを必要とする場合にはiTextのPdfTextExtractorで構文解析が正しく行われない

は、ここでのコードは次のとおりです。事前に

PdfReader pdf = new PdfReader(doc); //doc is just a byte[] 
int pageCount = pdf.getNumberOfPages(); 
for (int i = 1; i <= pageCount; i++) { 
    PdfTextExtractor pdfTextExtractor = new PdfTextExtractor(pdf); 
    String pageText = pdfTextExtractor.getTextFromPage(i); 

おかげで、よろしく。

答えて

1

PDFはインラインイメージがあると思います。私はiText 2.1.7がそれに対処するとは思わない。 ライセンスについての情報を見つけることができますhere

+0

こんにちはEriksberger、あなたのお返事ありがとうございます、私はおそらくあなたが正しいと思う、私はiText 5.0.4のchangelogを読んでいた[ここ](http://itextpdf.com/history /?branch = 50&node = 504)、PDFのインライン画像には多くの作業がありました。誰かが以前のバージョンのiTextの代替案を知っているかどうかを確認するのを待つ。再度、感謝します。 – Maximiliano

+0

私はフォークを意識していません。あなたもAGPLの下であなたのアプリをリリースすることができます。または、生地をポニーにすることができます。一般的なテキスト抽出が必要な場合は、それを処理できる他のJavaライブラリがあります。 –

+0

こんにちはマーク、この問題を他のチームとコメントしていただき、ありがとうございました。[PdfBox](http://pdfbox.apache.org/)を試してみることにしました。あなたと@エリックスバーガーにお時間をいただき、ありがとうございます。 – Maximiliano

関連する問題