MS Reporting Servicesで生成されたPDFファイルの解析 - いいえOCR

MS Reporting Servicesで生成されたPDFレポートを解析し、解析されたデータをデータベースに格納する必要があります。理由を聞かないでください、それは必要条件です。：=）MS Reporting Servicesで生成されたPDFファイルの解析 - いいえOCR

これらはOCRする必要がある画像PDFではないため、これらのファイルを解析する簡単な方法はありますか？この目的のために無料または商用のツールはありますか？

ファイルには、レポートヘッダーとデータを含むテーブルが含まれています。フォーカスはテーブルの解析とヘッダー（顧客ID、名前など）からのいくつかのフィールドにあります。

出典

2010-12-10 emirc

iText（Java）& iTextSharp（c＃）は、PdfTextParserを使用して生のテキストを取得できます。それは、各単語の位置と現在の図形の状態（ほとんどの色）を教えてくれるでしょう。トランクのリリースはAGPLの下にあります。 iTextSharpのMPLバージョンにはパーサーパッケージがありません。

「テーブル」としてデータを取り出すことは非常に難しいです...通常は。ページ上の行とテキストに基づいて、書式/場所を決定する必要があります。

実際に表や行などを定義するマークされたコンテンツはまれですが、まだ自分自身を作成していないものがあります。

私たちが見ることができるサンプルがありますか？より詳細な回答を得ることができますか？

出典

2010-12-10 23:23:54

答えに感謝します。 iTextSharpの代替手段はありますか？ – emirc

一般的なC＃/ PDFに関する質問がここにあります。周りを見てみましょう。 –

私は、PDFBoxを.NET（http://www.keylimetie.com/Blog/2005/11/23/PDFBoxinNET/）でgoogledしました。私はそれを試してみます。私は "テーブル"の問題、マークされたコンテンツ情報のおかげで、理解しています。私は、PDFからテーブルを確実に解析できるツールがあるかどうかを知りたかったのですが、私が得意とするのは1行のテキストだけです:) – emirc

MS Reporting Servicesで生成されたPDFファイルの解析 - いいえOCR

答えて

関連する問題