昨年、PDFBoxを使ってJavaでアプリケーションを作成してPDFファイルの生のテキストを取得しました。そのアプリケーションをC++に移植する必要があります。PDFBox for JavaのようなPDFファイルからテキストを抽出するためのC++ライブラリはありますか?
私は、必要なものを達成するために最高のC++の代替品が何かを知りたかったのです。
ことができます場合には、私は例をあげる:
ほとんどのファイルは、次のようになります。PDFBoxでhttp://www.jumbala.net/backup/league.pdf
を、そのファイルを使用して、各ラインは、2ページの読み込み、3ページのほとんどが希望行のすべてのデータを、今のようにグリッドに保持するのではなく、スペースで区切って出力します。
だから、2ページの最初の該当する行は次のようになります。彼らが表示されるために若干の変更があるので
FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615
またはそのような何かが、私は限りそれを気にしません私はそれらを解析し、必要な値を別の変数に入れているので、同様の行は同じ結果を出力します。
私はC++プログラムで同様の結果を得るためにライブラリを使用していますか?
編集:http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-fileでsacredFaithのリンクを見て、それを試した後、私は前述のサンプルファイルのために、このようなような奇妙な出力を取得しています:
http://www.jumbala.net/backup/league.pdf.txt
私は実際に必要な部品最初は奇妙なキャラクターになっています。
約私はJavaで何を得るPDFBoxを使用しているhttp://www.jumbala.net/backup/league_good.pdf.txt
と私は出力として取得したい:は、Adobe Acrobat Reader Xを使用して名前を付けて保存]を使用して...テキスト(アクセス可能)、私は次のような結果を得ますC++で。
多分これが助けになる可能性がありますhttp://stackoverflow.com/questions/3784554/creating-a-pdf-reader-in-c – grifos
@grifos私はそれを見ましたが、私はPDF仕様書全体を読まなくてもいいので、すでに作成済みのライブラリを用意しておきたいと思います。あなたが投稿した素晴らしいリンクは、後で便利になるかもしれません。 –
リンクでは、pdfを解析して情報を抽出できるように、C++ライブラリPoDoFoについても説明します。 – grifos