2010-12-13 24 views
0

私のASP.netアプリケーションでPDFBOXを使用してPDFファイルを読むことはできますが、空のセルのためのスペースをテーブルに追加していません。 C#でPDFBOXを使用してPDFファイルから空のフィールドを読み込みます。 pdfファイルを読むための他の方法はありますか?ASP.netでPDFファイルの空のセルを読み取る方法

ありがとうございました。テキストが正確にどこ事前にすべきであり、あなたはそれを抽出し、テキストの位置を取得することができます知っていれば

答えて

0

あなたはこの種のものをやってのけることができるかもしれません。

行とセルの位置がわからない場合は、テキストの位置に基づいて推測する必要があります。これは簡単ではありません。

一般に、PDFからデータを抽出することはお勧めできません。 PDFは「テーブル」という概念を持っていません(ただし、PDF作成者が「マークされたコンテンツ」を使用するうえでうまくいかない限り、これはまれです)。 PDFには、線、グリフ、画像(ピクセルの山)があります。その情報から書式を抽出するのは非常に難しいです...時にはそれは不可能です。

PDFBoxで抽出されたテキストの場所がわかりませんが、iTextSharpはそのことを知りません。

関連する問題