PDFファイルからテキストを抽出する必要があります。このテキストはおそらくテーブル形式であり、外部との間でデータを自動的に転送するために使用されます。PDFファイルからテキストを抽出する
誰でもコマンドラインツール(pdfからtxtなど)やこれに適したライブラリをお勧めしますか?
言語オプション:
- C#の
- (優先)は、Java(私がしなければならない場合)
私はここにいくつかのアイデアを見つけました、しかし、私は男がワンについての詳細を話していたと思います状況オフ、私はより多くの毎日の輸入のように話している:
https://stackoverflow.com/questions/488089/extracting-tables-from-pdf-files
テキストの表形式を保持しますか?そうであれば、タスクはかなり難しくなります。もしそうでなければ、提案されたPDFからテキストへのライブラリのいずれかがすべきです。 – Rowan
テーブルの形式は重要ではありません。機械で読めるようにするだけで、解析してデータベースに格納できます。 – Chris