不十分に配置されたpdf(次のコードのURL)からデータを削り取ろうとしています。意味のあるデータレコードを作成するために、テーブルの行/罫線の位置に関する情報を使用する必要があります。不正な形式のpdfテーブルのデータを削る
url="http://www.cmc.gv.ao/sites/main/pt/Lists/CMC%20%20PublicaesFicheiros/Attachments/89/Lista%20de%20Institui%C3%A7%C3%B5es%20Registadas%20(actualizado%2004.07.16).pdf"
import scraperwiki, urllib2, re
u = urllib2.urlopen(url)
xml=scraperwiki.pdftoxml(u.read()) # interpret pdf as xml
XMLの行は、テーブル行がどのように情報を分割するかを示していません。典型的な行は次のようになります。私のブラウザの要素インスペクタで
<text top="678" left="493" width="103" height="12" font="6">Besa Património </text>
、HTMLはもう少し詳しいですが、私はまだ、テーブルの行の配置についての情報が表示されません。
私はこれに対処しようとかなりの時間を費やしています。だから投機的な回答を最初に試してみると分かります。問題は、どうやってテーブルラインの位置を得るのですか?あなたがする必要があるテーブルのボーダーを取得する
を働きますsa [タグ付きPDF](https://pdftables.com/upload/view/x1ho0izxoubk977uyzcopiytx/Lista%20de%20Institui%C3%A7%C3%B5es%20Registadas%20%28actualizado%2004.07.16%29.pdf) – dwarring
主な関心事は、最初の列がどのように39レコードをグループ化するかについての情報を失っていることです。このフォームにpdfを入手すると便利かもしれませんが、タグ付きpdfをPythonで出力できますか? – Astrophe
再現可能な既知のPDF構造から情報を取得しようとする(多分)可能性があります。元のデータを取得します。 –