2012-04-19 18 views
0

.NETアプリケーションでItextsharpを使用してPDFを読み込もうとしていました。私は個々の単語をうまく読むことができます。私が直面している課題は、テーブルを読むことです。私はこのようなテーブルの構造を有する:PDFでテーブルを読むItextsharp

enter image description here

をここにいくつかの列名の2つのライニングであることに注意してください。部門コードと従業員識別番号などがあります。

従業員が「HR」部門に所属している場合は、従業員識別番号と給与を読んでください。このためには、「Department Code」という名前の列がPDFファイルに存在するかどうかをチェックする必要があります。

iTextsharpを使用してこの表を読むと、「部門コード」の「部署」の部分が1の位置にありますが、「コード」は5番目の位置になります。これは、この列が私はこの列の 'Code'partを読む前に、2つの行と他の4つの単語がpdfに存在します。私は

誰もが、列名「部門コード」は存在していることを確認し、このたテーブルから対応する値を読み取る方法任意のアイデアを持っている:(この時に完全に立ち往生していますあなたの助けに感謝!

よろしく、 Jaleel

答えて

1

残念ながら、PDFは実際には「テーブル」の概念を持ちません。テーブルのように見えるのは、周囲に線があるような任意のテキストの束です。 "テーブル"からのものですが、最終的にそれらをテキストや無関係な行に変換します。また、「空白セル」として表示されるものは、おそらく実際にはテキストではありません(スペースでも可能です)。

あなたは、ドキュメントに固有のいくつかの任意のルールを考え出す必要があります。 行がテキストに対してどこに存在するかを計算して、より論理的な形式でテーブルを再構築しようとするが、それをするのは難しいだろう。

+0

クリスが助けてくれてありがとう!私はそれらの任意のルールを見つけようとしています:) – Jaleel

関連する問題