pdf-parsing

    0

    1答えて

    私は100のpdfを持っていますが、各pdfには40ページあります。つまり、処理されません。実際、私たちは豚Udfを使用しようとしているのですか?私たちはPig Udfを使ってPDFファイルを分割できますか?

    0

    1答えて

    PDFパーサー(http://www.pdfparser.org/)をインストールしました。私は彼らのウェブサイトをチェックし、デモを使いました。これは私が望む結果をもたらしました。数時間の作曲家の使い方を調べた結果、私は最終的にそれを動作させることができました。今私はデモから結果を得る方法について次の問題に悩まされています。 私はドキュメンテーションページのサンプルコードを使用しました。テキスト

    1

    1答えて

    は 検索中に、私は、そのlocation.Forテキストを伴って含むPDFからテキストを抽出するために解析するPdfBoxの.NETを使用しています私は、次のJavaコードを見つけました: PDFTextStripper stripper = new PDFTextStripper() { @Override protected void writeString(String

    7

    2答えて

    今後のオークションに掲載されているいくつかのプロパティについて分析したいと思います。残念なことに、オークションを運営する市は、情報を構造化された形式で公開するのではなく、オークションのためにプロパティの700+ page PDFを提供します。 DBに挿入するための構造化された書式に前記PDFを解析する方法や、プロパティのスプレッドシートを作成する方法について、コミュニティが考えているかどうかは疑問

    0

    1答えて

    Smalot PDF Parserを使用してPDFを解析しようとしていますが、テキストのフォーマットが正しくないという問題があります。文字の間にスペースを表示しています。 例: "Letter"という単語は "L e tt e r"と書かれています。どうすれば修正できるの? また、Smalot PDF Parserが提供するドキュメントでは不十分です。 PDF Parserの詳細な実装については、

    1

    1答えて

    無料/有料.netライブラリを使用して、与えられたAcrobat(.pdf)ドキュメントのtext/graphic/image要素を、好ましくはオブジェクトモデルとして抽出して、別の形式に変換できるようにしますWYSIWYGの独自のエディタで理解できます。 直接翻訳が不可能な場合は、テキスト要素、図形/グラフィックス、画像を別々に取得するためにどのようなアプローチが取られているかを確認したいと思い

    0

    1答えて

    iTextを使用して、XFAフォームを含むPDFドキュメントを読み込みます。 私はそれをXMLに変換し、XMLからデータを読み込んでデータベースに挿入します。 PDFでXFAフォームを使用していないと、PDFからデータを効率的に読み取る方法は?

    1

    1答えて

    私はJsoup.parseでhtmlを解析しています。 他にもすばらしいですが、後でpdfコンバータでこのhtmlを解析するはずです。 何らかの理由でJsoup.parseが終了タグを削除し、pdf-parserが欠落しているimgタグの終了に関する例外をスローします。 Can't load the XML resource (using TRaX transformer). org.xml.sa

    0

    1答えて

    次のように私はITextRendererでHTMLからPDFファイルを解析しています:今 private void createPdf(File file, String content) throws IOException, DocumentException { OutputStream os = new FileOutputStream(file); conten

    1

    1答えて

    私はpdfを持っています。私の勝利でpdfminer.six 10、のpython 3.6環境をインストールした後、私は走った: $ pdf2txt.py -o test1 download.pdf を私のスクリーンショット出力を与えます。私は実行すると: $ dumppdf.py -o test2 download.pdf 私が取得: <trailer> <dict size="4">