2012-01-17 3 views
2

PDFをテキストに変換する必要があり、現在はpdftotext.exeを使用しています。これはときどき結果テキストを駄目にするので、私はそれを使うことはできません。PDFをpdftotextなしのテキストに変換しますか?

別のプログラムから呼び出せる無料のツールがありますか?私はコマンドラインツールを好むだろう。

答えて

3

PDFは、その構築方法に応じてテキストに変換するには注意が必要ですが、あなたはiTextSharpまたはGhostScriptのか、市販の部品などから良い結果を得ることができます:www.tallcomponents.com(提携していない)

+0

iTextSharpもPDFからTXTに変換できますか? – EOB

+0

テキストを抽出することができます。例やその他のオプションについては、こちらをご覧ください:http://stackoverflow.com/questions/4711134/itextsharp-text-extraction –

1

PDFファイルから一般に構造を含まないので、ソフトウェアはそれを推測する必要があります。問題のブログ記事をhttp://www.jpedal.org/PDFblog/2009/04/pdf-text/に書きました

また、PdfBoxを試してみることもできます。

0

私はApache PDFBoxがpdftotextよりはるかに優れていることが分かります。これは、文書の元の書式にはるかに近い方法でテキストを抽出します。これはコマンドラインから実行できます。

関連する問題