PDFBox for JavaのようなPDFファイルからテキストを抽出するためのC++ライブラリはありますか？

昨年、PDFBoxを使ってJavaでアプリケーションを作成してPDFファイルの生のテキストを取得しました。そのアプリケーションをC++に移植する必要があります。PDFBox for JavaのようなPDFファイルからテキストを抽出するためのC++ライブラリはありますか？

私は、必要なものを達成するために最高のC++の代替品が何かを知りたかったのです。

ことができます場合には、私は例をあげる：

ほとんどのファイルは、次のようになります。PDFBoxでhttp://www.jumbala.net/backup/league.pdf

を、そのファイルを使用して、各ラインは、2ページの読み込み、3ページのほとんどが希望行のすべてのデータを、今のようにグリッドに保持するのではなく、スペースで区切って出力します。

だから、2ページの最初の該当する行は次のようになります。彼らが表示されるために若干の変更があるので

FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615

またはそのような何かが、私は限りそれを気にしません私はそれらを解析し、必要な値を別の変数に入れているので、同様の行は同じ結果を出力します。

私はC++プログラムで同様の結果を得るためにライブラリを使用していますか？

編集：http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-fileでsacredFaithのリンクを見て、それを試した後、私は前述のサンプルファイルのために、このようなような奇妙な出力を取得しています：

http://www.jumbala.net/backup/league.pdf.txt

私は実際に必要な部品最初は奇妙なキャラクターになっています。

約私はJavaで何を得るPDFBoxを使用している

http://www.jumbala.net/backup/league_good.pdf.txt

と私は出力として取得したい：は、Adobe Acrobat Reader Xを使用して名前を付けて保存]を使用して...テキスト（アクセス可能）、私は次のような結果を得ますC++で。

出典

2012-03-30 Adam Smith

多分これが助けになる可能性がありますhttp://stackoverflow.com/questions/3784554/creating-a-pdf-reader-in-c – grifos

@grifos私はそれを見ましたが、私はPDF仕様書全体を読まなくてもいいので、すでに作成済みのライブラリを用意しておきたいと思います。あなたが投稿した素晴らしいリンクは、後で便利になるかもしれません。 –

リンクでは、pdfを解析して情報を抽出できるように、C++ライブラリPoDoFoについても説明します。 – grifos

Xpdfは、PDFファイルからプレーンテキストを抽出するためのツールが含まれてC++アプリケーション/ライブラリです。

出典

2012-03-31 14:23:20

Xpdfのプリコンパイル済みバージョンをダウンロードしたところ、コマンドラインからの.exeがうまく動作します。私が望む出力が得られます（-layoutオプションを使用するとPDFBoxを使用するよりも優れています）。私には質問がありますが... .exeを使用する代わりに、コードでメソッドを呼び出す方法がわかる場所がありますか？私は自分で見ていきますが、図書館に精通しているように見えるので、どこから探し始めるか教えてもらえればさらに良いでしょう。どうもありがとう！ –

XPDFチームは、http：//www.glyphandcog.com/XpdfText.htmlでオプションのサポートとともに、ライブラリの商用バージョンを提供しています –

私は次のように使用したことがありませんが、いくつかのグーグル後、私はこれが見つかりました：

http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file

出典

2012-03-30 23:13:08 sacredfaith

私はそれを見て、感謝します！私が望むように働くことができれば、私はあなたの答えに合格とマークします！ –

残念ながら、私はそれを試してみましたが、それは私が望むようには機能しません（テキストの一部はうまく抽出されますが、ドキュメントのほとんどは奇妙なシンボルで作られています） –

その人は申し訳ありません！あなたがチャールズのおかげであなたが探していたものを見つけたように見えます！ – sacredfaith

あなたが探しているのは：PoDoFoは、PDFファイルを解析/読み込み/変更したり作成したりするためのC++ライブラリです。ライブラリはクロスプラットフォームです。

出典

2012-03-31 15:38:15 grifos

PDFBox for JavaのようなPDFファイルからテキストを抽出するためのC++ライブラリはありますか？

答えて

関連する問題