pdf-parsing

5熱

1答えて

haskellで.pdfファイルを復号化し、内容を読み込んで文字列を返す可能性はありますか？そして、存在する場合は、あなたは私例えば：事前に ... import necessaryPackage ... pdfParsing = ... ... おかげのような少し例を与えることができます。よろしく、ジミー

4熱

2答えて

PDFクロスリファレンスストリーム

PDFパーサ/ライターを開発していますが、クロスリファレンスストリームを生成することに固執しています。私のプログラムはthisファイルを読み込み、線形化を取り除き、オブジェクトストリーム内のすべてのオブジェクトを解凍します。最後に、PDFファイルを作成して保存します。普通のクロスリファレンス&予告編を使用すると、これは実際にうまくいきます。これはthisファイルに示されています。私は、Ado

6熱

1答えて

itextsharpを使用してPDFからテキスト段落を取得

itextsharpを使用してPDFファイルから段落テキストを取得するロジックはありますか？私はpdfがテキストの実行のみをサポートしており、そこには<p>タグや他のタグはpdfの段落を決定することはありません。しかし、私はその座標から段落を構築するためにテキストの実行の座標を取得しようとしましたが、運がありません：。私のコードスニペットはここにあります： private StringBuild

4熱

1答えて

PDFから文字列の位置を含むすべてのテキストを抽出します

これは古い質問と思われるかもしれませんが、30分以上の時間を費やして徹底的な答えを見つけたわけではありません。私はPDFBoxを使用していますが、PDFファイルからすべての文字列を抽出したいと思います。私は彼らのPrintTextLocations例（http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/PrintTex

0熱

1答えて

pdfコンテンツストリームの解析

私は構文解析の助けが必要ですイラストレーターで作成されたpdfは4層あり、各層には1つのグラフィックパスオブジェクトがあります 4つのグラフィックパスをすべて取得して描画しますこのpdfと同じ幅と高さを持ち、同じ位置に描画したい別のpdfファイルです。今 public static List<PDFMask> GetMasksFromPage(PdfPage page) {

1熱

1答えて

Pdfテキストを解凍する方法を解析する

pdfファイルを解析しようとしていますが、pdfからテキストを抽出することができますが、pdfが圧縮されている場合（flatedecodeを使用している場合）、解凍方法テキスト、またどのように使用されるフィルタを知るために？

0熱

1答えて

Windowsに組み込まれたPDF IFilter（dll）インターフェイスを使用して、クラシックASPを介してPDF文書のテキストとプロパティを抽出する方法

PDFファイルのテキストとプロパティ（著者、タイトルなど）を抽出します。従来のASP環境では、pdfファイルからテキストを抽出して解析する必要があります。私は、COM経由で参照できるAdobe Acrobat 9でインストールされたPDF iFilterドライバの使用に関する別の記事を読んでいます。これは可能ですか？もしそうなら、私はどのように始めるのですか？

2熱

1答えて

PDF iOSのパッケージ

私はしばらくの間、PDFパッケージに含まれているpdfドキュメントを解凍できるように努力してきました。どこにもドキュメンテーションやサンプルコードは見つかりませんでしたが、Adobe ReaderアプリとPDFExpertアプリでサポートされているため不可能ではありません。私がそれはそれに付属していません願って、彼らは自分のパーサを持っている可能性があり... 正しい方向に私を指すようになります任

8熱

3答えて

PDFを解析する際に奇妙な空白があります

PDF文書を解析する必要があります。私はすでにパーサーを実装してライブラリを使用しましたiTextこれまで問題なく動作しました。しかし、いいえ、私は単語の真ん中に非常に奇妙な空白を取得する別のドキュメントを解析する必要があります。一例として、私は得る： VoのRBER eitungアウフMotorrのadsaisonを死にます。 Viele Motorr ADF AHR ER すべての大胆な言葉