2017-10-05 2 views
0

私はPDFからテーブルデータを欲しいと私は、

java -jar tabula-java.jar -a 301.95,14.85,841.0500000000001,695.25 -t example.pdf 

しかし、これでは

は、2つの列のデータは、いくつかの行に混入したテーブルデータを取得するには、コマンドの下 を使用していますタブラコマンドラインで座標だから完全なデータを得るための列座標を指定したいのですが、 列の座標を取得する方法がわかりません。 誰もが完璧なコマンドで私を導くことができますので参考にしてください。

ありがとうございます!

答えて

0

-cまたは--columnsパラメータを使用して列座標を指定できます。指定する座標は、列間の区切り線の座標になります。したがって、1つの列が10.5から13.5に移動し、次の列が13.5から17.5に変更された場合は、13.5のみがリストされます。また、推測をオフにする必要があります。

java -jar tabula-java.jar -a 301.95,14.85,841.0500000000001,695.25 -c 15.7,17.3,19.2,33.2,70.1,100.7,200.6,300.7 -t example.pdf -g False 

あなたはちょうどいいから、あなたのコマンドを取得するためのさまざまなオプションについての詳細を読むことができます:私は正しい座標を提供することはできませんが、あなたのコマンドは次のようになりますので、あなたは例のPDFファイルを提供していませんでしたhelpコマンド:

$ java -jar target/tabula-1.0.1-jar-with-dependencies.jar --help 
usage: tabula [-a <AREA>] [-b <DIRECTORY>] [-c <COLUMNS>] [-d] [-f 
     <FORMAT>] [-g] [-h] [-i] [-l] [-n] [-o <OUTFILE>] [-p <PAGES>] [-r] 
     [-s <PASSWORD>] [-t] [-u] [-v] 

Tabula helps you extract tables from PDFs 

-a,--area <AREA>   Portion of the page to analyze 
          (top,left,bottom,right). Example: --area 
          269.875,12.75,790.5,561. Default is entire 
          page 
-b,--batch <DIRECTORY>  Convert all .pdfs in the provided directory. 
-c,--columns <COLUMNS>  X coordinates of column boundaries. Example 
          --columns 10.1,20.2,30.3 
-d,--debug     Print detected table areas instead of 
          processing. 
-f,--format <FORMAT>  Output format: (CSV,TSV,JSON). Default: CSV 
-g,--guess     Guess the portion of the page to analyze per 
          page. 
-h,--help     Print this help text. 
-i,--silent    Suppress all stderr output. 
-l,--lattice    Force PDF to be extracted using lattice-mode 
          extraction (if there are ruling lines 
          separating each cell, as in a PDF of an Excel 
          spreadsheet) 
-n,--no-spreadsheet  [Deprecated in favor of -t/--stream] Force PDF 
          not to be extracted using spreadsheet-style 
          extraction (if there are no ruling lines 
          separating each cell) 
-o,--outfile <OUTFILE>  Write output to <file> instead of STDOUT. 
          Default: - 
-p,--pages <PAGES>   Comma separated list of ranges, or all. 
          Examples: --pages 1-3,5-7, --pages 3 or 
          --pages all. Default is --pages 1 
-r,--spreadsheet   [Deprecated in favor of -l/--lattice] Force 
          PDF to be extracted using spreadsheet-style 
          extraction (if there are ruling lines 
          separating each cell, as in a PDF of an Excel 
          spreadsheet) 
-s,--password <PASSWORD> Password to decrypt document. Default is empty 
-t,--stream    Force PDF to be extracted using stream-mode 
          extraction (if there are no ruling lines 
          separating each cell) 
-u,--use-line-returns  Use embedded line returns in cells. (Only in 
          spreadsheet mode.) 
-v,--version    Print version and exit.