2010-12-10 3 views
1

MS Reporting Servicesで生成されたPDFレポートを解析し、解析されたデータをデータベースに格納する必要があります。理由を聞かないでください、それは必要条件です。 :=)MS Reporting Servicesで生成されたPDFファイルの解析 - いいえOCR

これらはOCRする必要がある画像PDFではないため、これらのファイルを解析する簡単な方法はありますか?この目的のために無料または商用のツールはありますか?

ファイルには、レポートヘッダーとデータを含むテーブルが含まれています。フォーカスはテーブルの解析とヘッダー(顧客ID、名前など)からのいくつかのフィールドにあります。

答えて

3

iText(Java)& iTextSharp(c#)は、PdfTextParserを使用して生のテキストを取得できます。それは、各単語の位置と現在の図形の状態(ほとんどの色)を教えてくれるでしょう。トランクのリリースはAGPLの下にあります。 iTextSharpのMPLバージョンにはパーサーパッケージがありません。

「テーブル」としてデータを取り出すことは非常に難しいです...通常は。ページ上の行とテキストに基づいて、書式/場所を決定する必要があります。

実際に表や行などを定義するマークされたコンテンツはまれですが、まだ自分自身を作成し​​ていないものがあります。

私たちが見ることができるサンプルがありますか?より詳細な回答を得ることができますか?

+0

答えに感謝します。 iTextSharpの代替手段はありますか? – emirc

+0

一般的なC#/ PDFに関する質問がここにあります。周りを見てみましょう。 –

+0

私は、PDFBoxを.NET(http://www.keylimetie.com/Blog/2005/11/23/PDFBoxinNET/)でgoogledしました。私はそれを試してみます。私は "テーブル"の問題、マークされたコンテンツ情報のおかげで、理解しています。私は、PDFからテーブルを確実に解析できるツールがあるかどうかを知りたかったのですが、私が得意とするのは1行のテキストだけです:) – emirc