2016-09-29 24 views
1

Perlを使用して情報を抽出するには、PDFファイルをテキストに変換する必要があります。しかし、私は、テキストファイルを定位置で取得していないため、PDF内の要素の位置とテキストが同じである必要があります。私はCAM::PDF::PageTextを試しましたが、出力は非常に異なります。PDFからテキストへの位置データの取得方法

私はpdftotextとPopplerを参照している投稿に出くわしましたが、Windows 10の64ビットシステムでこれらの設定はできません。

この問題を解決する他の方法がある場合は、教えてください。

+0

http://stackoverflow.com/questions/6104045/installing-poppler-on-cygwin – xxfelixxx

+0

テキストをテキストエディタにコピーして貼り付けることを検討しましたか? – Borodin

+0

貼り付けデータはコピーできますが、後でテキストファイルから情報を抽出する必要があるため、フォーマットはPDFと似ていません。 – Mohit

答えて

0

申し訳ありませんが、最終的にはXpdfによってpdftotextが解決されました。最良の方法は、事前にコンパイルされたバイナリ(.exe)ファイルをダウンロードすることです。そして、我々はpdftohtmlのようなさまざまなツールを使用することができますcommmandラインinvaocationを使用して、pdftotextなど

することができますこのページ

http://www.foolabs.com/xpdf/download.html

でと「プリコンパイル済みバイナリ」の見出しの下ルックそれを見つける。あなたはバイナリが存在している場所にディレクトリを変更する必要があり、コマンドプロンプトで

は、上記のコマンドはどこ同じフォルダにFILE1.TXTを与える

Exapmle: pdftotext File1.pdf 

パラメータとしてファイルとバイナリを呼び出しますバイナリが存在します。

1

What you really wantは、-xml出力のpdftohtmlです。あなたはbuild it on Windowsです。

Windows上のpopplerをコンパイルするには2通りの方法があります。

  • mingwのコンパイラを使用してcygwinの下
  • は、ネイティブのVisual Studio(MSVC)メイク

を使用してこの文書では、第二の方法を説明し。 ...

あなたはコンパイラの2013年と2015年のバージョンを取得し、IDEと一緒にツールを構築するためにライセンス条項にVisual Studio Community Edition主題をダウンロードすることができます。

Visual C++ build toolsを入手してください。 Walkthrough: Compiling a Native C++ Program on the Command Lineも参照してください。

関連する問題