私はPDFファイルから情報を文字列に抽出しています。 pdfの構造であるテキストを横切ってテーブルとして来ると、抽出されたテキストは、テーブル行のセルごとではなく、行を横切って読み込まれる方法に分割されます。PDFファイルからテーブル構造化テキストを抽出する
時間を読み込んで検索した後、この問題にアプローチして、どのように文字列を以下のように構造化する必要がありますか?
現在の文字列:
Difenylmetandiisocyanat 9016-87-9 Acute Tox. 4; H332 >= 10 - < 20
Skin Irrit. 2; H315
Eye Irrit. 2; H319
Resp. Sens. 1; H334
Skin Sens. 1; H317
Carc. 2; H351
STOT SE 3; H335
STOT RE 2; H373
4,4'-metylendifenyldiisocyanat 101-68-8 Acute Tox. 4; H332 >= 10 - < 20
202-966-0 Skin Irrit. 2; H315
Eye Irrit. 2; H319
Resp. Sens. 1; H334
Skin Sens. 1; H317
Carc. 2; H351
STOT SE 3; H335
STOT RE 2; H373
所望の構造:あなたは "ファイルにはタグがありません" と言うあなたのコメントで
Difenylmetandiisocyanat
9016-87-9
Acute Tox. 4; H332
Skin Irrit. 2; H315
Eye Irrit. 2; H319
Resp. Sens. 1; H334
Skin Sens. 1; H317
Carc. 2; H351
STOT SE 3; H335
STOT RE 2; H373
>= 10 - < 20
4,4'-metylendifenyldiisocyanat
101-68-8
202-966-0
Acute Tox. 4; H332
Skin Irrit. 2; H315
Eye Irrit. 2; H319
Resp. Sens. 1; H334
Skin Sens. 1; H317
Carc. 2; H351
STOT SE 3; H335
STOT RE 2; H373
>= 10 - < 20
私たちに最も重要な情報を提供することを忘れてしまいました。「テーブル構造のテキスト」について話しますが、PDFを共有する代わりに、PDFが構造化されているかどうかを調べることができます。 PDFが適切に* Tagged *)、あなたはスクリーンショットを共有します。あなたが実際にPDFにテーブル構造を持っているというあなたの主張を確認する方法はありません。 * Tagged PDF *では、人間の目がテーブル構造として認識するものと実際のテーブル構造に大きな違いがあります。 PDFにタグが付いていない場合は、構造化されていません。 –
ファイルにタグがありません。 PDFファイル:[リンク](http://expirebox.com/files/d3426fda8d00dd0e7c6791814b5994c8.pdf) –
PDFが構造化されておらず、すぐに提供されていないものを求めています私は知っている)、それは多くのプログラミング作業を必要とする(Stack Overflowで提供できる以上のもの)。 –