pdf-parsing

0熱

1答えて

私は100のpdfを持っていますが、各pdfには40ページあります。つまり、処理されません。実際、私たちは豚Udfを使用しようとしているのですか？私たちはPig Udfを使ってPDFファイルを分割できますか？

0熱

1答えて

PDFパーサー（http://www.pdfparser.org/）をインストールしました。私は彼らのウェブサイトをチェックし、デモを使いました。これは私が望む結果をもたらしました。数時間の作曲家の使い方を調べた結果、私は最終的にそれを動作させることができました。今私はデモから結果を得る方法について次の問題に悩まされています。私はドキュメンテーションページのサンプルコードを使用しました。テキスト

1熱

1答えて

C＃を使用してPDFTextStripper.writeString（String text、List <TextPosition> textPositions）メソッドをオーバーライドできません。

は検索中に、私は、そのlocation.Forテキストを伴って含むPDFからテキストを抽出するために解析するPdfBoxの.NETを使用しています私は、次のJavaコードを見つけました： PDFTextStripper stripper = new PDFTextStripper() { @Override protected void writeString(String

7熱

2答えて

PDFを構造化形式に変換する方法のお勧めをお探しの場合

今後のオークションに掲載されているいくつかのプロパティについて分析したいと思います。残念なことに、オークションを運営する市は、情報を構造化された形式で公開するのではなく、オークションのためにプロパティの700+ page PDFを提供します。 DBに挿入するための構造化された書式に前記PDFを解析する方法や、プロパティのスプレッドシートを作成する方法について、コミュニティが考えているかどうかは疑問

0熱

1答えて

Smalot PDFパーサーを使用してPDFを解析中にテキスト形式のエラーが発生しました

Smalot PDF Parserを使用してPDFを解析しようとしていますが、テキストのフォーマットが正しくないという問題があります。文字の間にスペースを表示しています。例： "Letter"という単語は "L e tt e r"と書かれています。どうすれば修正できるの？また、Smalot PDF Parserが提供するドキュメントでは不十分です。 PDF Parserの詳細な実装については、

1熱

1答えて

.netを使用してPdf要素を抽出する

無料/有料.netライブラリを使用して、与えられたAcrobat（.pdf）ドキュメントのtext/graphic/image要素を、好ましくはオブジェクトモデルとして抽出して、別の形式に変換できるようにしますWYSIWYGの独自のエディタで理解できます。直接翻訳が不可能な場合は、テキスト要素、図形/グラフィックス、画像を別々に取得するためにどのようなアプローチが取られているかを確認したいと思い

0熱

1答えて

XFAフォームを持たないPDFドキュメントからデータを読み取る

iTextを使用して、XFAフォームを含むPDFドキュメントを読み込みます。私はそれをXMLに変換し、XMLからデータを読み込んでデータベースに挿入します。 PDFでXFAフォームを使用していないと、PDFからデータを効率的に読み取る方法は？

1熱

1答えて

Jsoup.parseが閉じるのを防ぐのを防ぐ</img>タグ

私はJsoup.parseでhtmlを解析しています。他にもすばらしいですが、後でpdfコンバータでこのhtmlを解析するはずです。何らかの理由でJsoup.parseが終了タグを削除し、pdf-parserが欠落しているimgタグの終了に関する例外をスローします。 Can't load the XML resource (using TRaX transformer). org.xml.sa

0熱

1答えて

ITextRendererで作成したpdfのローカルディレクトリからイメージを取得するには？

次のように私はITextRendererでHTMLからPDFファイルを解析しています：今 private void createPdf(File file, String content) throws IOException, DocumentException { OutputStream os = new FileOutputStream(file); conten

1熱

1答えて

pdfminer pdf2textは 'FF'を出力します

私はpdfを持っています。私の勝利でpdfminer.six 10、のpython 3.6環境をインストールした後、私は走った： $ pdf2txt.py -o test1 download.pdf を私のスクリーンショット出力を与えます。私は実行すると： $ dumppdf.py -o test2 download.pdf 私が取得： <trailer> <dict size="4">