2016-11-01 1 views
0

PDFファイルから表データの抽出を自動化しています。私はTabulaと呼ばれるオープンソースライブラリを使用する必要があります。このツールには、列を別の表形式のPDFデータにフィードするオプションが用意されています。Tabula/PDFカラムユニット

-c 80, 250, 380 

上記は5つの列を作成します。 80,250,380はカラムセパレータの単位です。

80,250,380の単位は何ですか、どのようにページ上のどの水平位置が何番であるかを知ることができますか?これらの点でPDFが測定される共通の単位はありますか?

+0

あなたはそのコードを使用して測定したときに何が起こったでしょうか? – usr2564301

+1

pdfページの中央に300と書かれているようです。 – HoosierCoder

+0

私が見つけたベストは、実際のアクロバットの定規とこれらの数字との間に作成した比率ですが、これらは何かのために立つ必要があります。 – HoosierCoder

答えて

1

ドキュメントには、how to grab the coordinates from the tabula appについて説明するセクションがあります。

座標は、ブラウザの「開発者ツール」の「コンソール」タブにも表示され、「&の抽出データのプレビュー」をクリックすると表示されます。