PDFファイルからテーブル構造化テキストを抽出する

私はPDFファイルから情報を文字列に抽出しています。 pdfの構造であるテキストを横切ってテーブルとして来ると、抽出されたテキストは、テーブル行のセルごとではなく、行を横切って読み込まれる方法に分割されます。PDFファイルからテーブル構造化テキストを抽出する

時間を読み込んで検索した後、この問題にアプローチして、どのように文字列を以下のように構造化する必要がありますか？

PDF- table structure

現在の文字列：

Difenylmetandiisocyanat 9016-87-9 Acute Tox. 4; H332 >= 10 - < 20 
Skin Irrit. 2; H315 
Eye Irrit. 2; H319 
Resp. Sens. 1; H334 
Skin Sens. 1; H317 
Carc. 2; H351 
STOT SE 3; H335 
STOT RE 2; H373 
4,4'-metylendifenyldiisocyanat 101-68-8 Acute Tox. 4; H332 >= 10 - < 20 
202-966-0 Skin Irrit. 2; H315 
Eye Irrit. 2; H319 
Resp. Sens. 1; H334 
Skin Sens. 1; H317 
Carc. 2; H351 
STOT SE 3; H335 
STOT RE 2; H373

所望の構造：あなたは "ファイルにはタグがありません" と言うあなたのコメントで

Difenylmetandiisocyanat 

9016-87-9 

Acute Tox. 4; H332 
Skin Irrit. 2; H315 
Eye Irrit. 2; H319 
Resp. Sens. 1; H334 
Skin Sens. 1; H317 
Carc. 2; H351 
STOT SE 3; H335 
STOT RE 2; H373 

>= 10 - < 20 

4,4'-metylendifenyldiisocyanat 

101-68-8 
202-966-0 

Acute Tox. 4; H332 
Skin Irrit. 2; H315 
Eye Irrit. 2; H319 
Resp. Sens. 1; H334 
Skin Sens. 1; H317 
Carc. 2; H351 
STOT SE 3; H335 
STOT RE 2; H373 

>= 10 - < 20

出典

2016-08-12 Jonas Johansson

私たちに最も重要な情報を提供することを忘れてしまいました。「テーブル構造のテキスト」について話しますが、PDFを共有する代わりに、PDFが構造化されているかどうかを調べることができます。 PDFが適切に* Tagged *）、あなたはスクリーンショットを共有します。あなたが実際にPDFにテーブル構造を持っているというあなたの主張を確認する方法はありません。 * Tagged PDF *では、人間の目がテーブル構造として認識するものと実際のテーブル構造に大きな違いがあります。 PDFにタグが付いていない場合は、構造化されていません。 –

ファイルにタグがありません。 PDFファイル：[リンク]（http://expirebox.com/files/d3426fda8d00dd0e7c6791814b5994c8.pdf） –

PDFが構造化されておらず、すぐに提供されていないものを求めています私は知っている）、それは多くのプログラミング作業を必要とする（Stack Overflowで提供できる以上のもの）。 –

。私は、ファイルをチェックする場合しかし、私は明らかに構造ツリーを参照してください。

PDFがタグ付けされている場合は、あなたが簡単にXMLに変換することができます：

TaggedPdfReaderTool convertor = new TaggedPdfReaderTool(); 
    convertor.convertToXml(
     new PdfReader("resources/pdfs/sds_w_sv_3.pdf"), 
     new FileOutputStream("results/sds_w_sv_3.xml"));

これはの抜粋です結果のXMLファイル：

<Table> 
<TR> 
<TH> 
<Span></Span> 
<P> 
Best&#229;ndsdelar 
</P> 
</TH> 
<TH> 
<Span></Span> 
<P> 
CAS 
- 
nr. 
</P> 
</TH> 
<TH> 
<Span></Span> 
<P> 
Kontrollparametrar 
</P> 
</TH> 
<TH> 
<Span></Span> 
<P> 
Grundval 
</P> 
</TH>

このXMLは、テーブルとしてテーブルを抽出することができますHTMLのような構造です。ただし、PDFに表示されるすべての情報がXMLにレンダリングされるわけではないため、PDFのタグ付け方法に問題があるはずです。あなたが最初のタグのいずれかをクリックしたときは、これを見ることができます

：

構造ツリーの最初の<P>（段落）の内容はに何が起こった40ページのAVSNITT 1であります最初の39ページのタグ？これは悪いPDFファイルです。それはタグ付けされていると言われていますが、一見するとタグ付けが適切ではありません。このファイルを作成した人に、適切にタグ付けするように依頼する必要があります。適切なタグがなければ、プログラム的に表のような構造を見つけることが難しくなります。

出典

2016-08-12 12:05:11

ありがとう、これは本当に役に立ちます。 –

PDFファイルからテーブル構造化テキストを抽出する

答えて

関連する問題