pdf-parsing

    5

    1答えて

    haskellで.pdfファイルを復号化し、内容を読み込んで文字列を返す可能性はありますか? そして、存在する場合は、あなたは私例えば:事前に ... import necessaryPackage ... pdfParsing = ... ... おかげのような少し例を与えることができます。 よろしく、ジミー

    4

    2答えて

    PDFパーサ/ライターを開発していますが、クロスリファレンスストリームを生成することに固執しています。 私のプログラムはthisファイルを読み込み、線形化を取り除き、オブジェクトストリーム内のすべてのオブジェクトを解凍します。最後に、PDFファイルを作成して保存します。 普通のクロスリファレンス&予告編を使用すると、これは実際にうまくいきます。これはthisファイルに示されています。 私は、Ado

    6

    1答えて

    itextsharpを使用してPDFファイルから段落テキストを取得するロジックはありますか?私はpdfがテキストの実行のみをサポートしており、そこには<p>タグや他のタグはpdfの段落を決定することはありません。しかし、私はその座標から段落を構築するためにテキストの実行の座標を取得しようとしましたが、運がありません:。 私のコードスニペットはここにあります: private StringBuild

    4

    1答えて

    これは古い質問と思われるかもしれませんが、30分以上の時間を費やして徹底的な答えを見つけたわけではありません。 私はPDFBoxを使用していますが、PDFファイルからすべての文字列を抽出したいと思います。私は彼らのPrintTextLocations例(http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/PrintTex

    0

    1答えて

    私は構文解析の助けが必要です イラストレーターで作成されたpdfは4層あり、各層には1つのグラフィックパスオブジェクトがあります 4つのグラフィックパスをすべて取得して描画しますこのpdfと同じ幅と高さを持ち、同じ位置に描画したい別のpdfファイルです。今 public static List<PDFMask> GetMasksFromPage(PdfPage page) {

    1

    1答えて

    pdfファイルを解析しようとしていますが、pdfからテキストを抽出することができますが、pdfが圧縮されている場合(flatedecodeを使用している場合)、解凍方法テキスト、またどのように使用されるフィルタを知るために?

    0

    1答えて

    PDFファイルのテキストとプロパティ(著者、タイトルなど)を抽出します。 従来のASP環境では、pdfファイルからテキストを抽出して解析する必要があります。私は、COM経由で参照できるAdobe Acrobat 9でインストールされたPDF iFilterドライバの使用に関する別の記事を読んでいます。 これは可能ですか?もしそうなら、私はどのように始めるのですか?

    2

    1答えて

    私はしばらくの間、PDFパッケージに含まれているpdfドキュメントを解凍できるように努力してきました。どこにもドキュメンテーションやサンプルコードは見つかりませんでしたが、Adobe ReaderアプリとPDFExpertアプリでサポートされているため不可能ではありません。私がそれはそれに付属していません願って、彼らは自分のパーサを持っている可能性があり... 正しい方向に私を指すようになります任

    8

    3答えて

    PDF文書を解析する必要があります。私はすでにパーサーを実装してライブラリを使用しましたiTextこれまで問題なく動作しました。 しかし、いいえ、私は単語の真ん中に非常に奇妙な空白を取得する別のドキュメントを解析する必要があります。一例として、私は得る: VoのRBER eitungアウフMotorrのadsaisonを死にます。 Viele Motorr ADF AHR ER すべての大胆な言葉