tabula

1熱

2答えて

javaプログラム内からtabulaツールコマンドを実行したい。私が試しているコードは次のとおりです： System.setProperty("user.dir", "C:\\Program Files"); String command ="\\tabula\\tabula-0.9.0-SNAPSHOT-jar-with-dependencies.jar "+"D:\\sample.pdf"+

0熱

1答えて

Python：エラー - tabula-pyがPDFを読み取れません

tabula-pyのread_pdf関数を実行できません。これは、次のエラーメッセージが生成されているようだ。これは理由を Traceback (most recent call last): File "C:/Users/riley/PycharmProjects/Payroll/PayrollParsePDF.py", line 126, in <module> prin

0熱

1答えて

Tabula/PDFカラムユニット

PDFファイルから表データの抽出を自動化しています。私はTabulaと呼ばれるオープンソースライブラリを使用する必要があります。このツールには、列を別の表形式のPDFデータにフィードするオプションが用意されています。 -c 80, 250, 380 上記は5つの列を作成します。 80,250,380はカラムセパレータの単位です。 80,250,380の単位は何ですか、どのようにページ上のどの水

0熱

1答えて

バニラのUbuntuサーバでPython環境を設定できません

私は、JavaライブラリTabulaのtabula-pyラッパーを使用する単純なPythonサーバを作成しました。ローカルでそれをテストした後、対応するクライアントを使用してすべてが動作していると判断したら、バニラのUbuntu Server 16.04 VBoxインスタンスで実行しようとしました。私はランタイムエラーが（同じ以下のように）なっていたとして、私はPythonのCLIを使用して簡単な

0熱

1答えて

phpで書かれた別のプログラムからtabula-javaを呼び出す方法は？

状況私はウェブサイトをPHPで書いています。 PHPでは、同じWebサイトにアップロードされたpdfファイル内のテキストを抽出することができます。 githubレポを見つけました。何が問題なのですか？私はtabulaのmacアプリを試しました。私は、テーブルのデータを変換する前に、pdfの特定のセクションを強調する必要があることに気付きました。しかし、これは私が達成したいことではありません

0熱

1答えて

Pandasの名前のない列の名前を変更する方法は？

私はそこにテーブルがあるpdfを持っていて、そのテーブルをPandasに取得しようとしています。 pdfテーブルを抽出することは悪名高くも困難なことですが、タブラが最もうまく機能することが分かりました。まだまだ完璧ではありませんが、私が見たことは遠く離れています。私は、このPDFのテーブルがあります。注テーブルのヘッダを、そしてどのように彼らは時々、次の行に実行し、一般的に素敵ではありません。私

0熱

1答えて

Tabulaを使用したPDFからのテーブルの抽出

私はTabulaという素晴らしいライブラリに出くわしました。残念ながら、最初のページにはTabulaが抽出したくない無駄な領域がたくさんあります。ドキュメントによれば、抽出したいページ領域を指定することができます。しかし、無駄な領域は私のPDFファイルの最初のページにしかないので、その後のすべてのページでTabulaはトップセクションを見逃してしまいます。エリア条件をに指定する方法はありますか？は

0熱

1答えて

"Javaが見つかりません" tabula-pyを使用しています

皆、私はpdfsからテーブルを抽出するためにpythonでtabula-pyを使用しています。私は次のコードを使用しました。 import tabula table_temp = tabula.read_pdf('./example_pdf/sample1.pdf',pages=11) ただし、私は「このようなファイルまたはディレクトリはありません」というメッセージが表示されました。私は次