PDFをテキストに変換する必要があり、現在はpdftotext.exe
を使用しています。これはときどき結果テキストを駄目にするので、私はそれを使うことはできません。PDFをpdftotextなしのテキストに変換しますか?
別のプログラムから呼び出せる無料のツールがありますか?私はコマンドラインツールを好むだろう。
PDFをテキストに変換する必要があり、現在はpdftotext.exe
を使用しています。これはときどき結果テキストを駄目にするので、私はそれを使うことはできません。PDFをpdftotextなしのテキストに変換しますか?
別のプログラムから呼び出せる無料のツールがありますか?私はコマンドラインツールを好むだろう。
PDFは、その構築方法に応じてテキストに変換するには注意が必要ですが、あなたはiTextSharpまたはGhostScriptのか、市販の部品などから良い結果を得ることができます:www.tallcomponents.com(提携していない)
PDFファイルから一般に構造を含まないので、ソフトウェアはそれを推測する必要があります。問題のブログ記事をhttp://www.jpedal.org/PDFblog/2009/04/pdf-text/に書きました
また、PdfBoxを試してみることもできます。
私はApache PDFBoxがpdftotextよりはるかに優れていることが分かります。これは、文書の元の書式にはるかに近い方法でテキストを抽出します。これはコマンドラインから実行できます。
iTextSharpもPDFからTXTに変換できますか? – EOB
テキストを抽出することができます。例やその他のオプションについては、こちらをご覧ください:http://stackoverflow.com/questions/4711134/itextsharp-text-extraction –