私はsec.govのウェブサイトからたくさんのファイルを掻き集めようとしています。問題は、古いファイルが.txt形式の形式であり、実際のHTML書式を一切持たないことです。 Pythonを使用してこれらのファイルから情報を取得する方法はありますか?ウェブでpythonを使って.txtファイルを傷つける
Here's a link to an example document
私は約30,000行うにはこれらの人のを持っているし、古い文書は、私の上司は本当にたいものです...私は現在、適切にフォーマットされている他の擦り傷のためBeautifulSoup4を使用しています。
ありがとうございます!
どのような情報を取得しようとしていますか? –
ウェブスクラップではないHTMLでない場合は、単純に解析します。 – jonrsharpe
予想される出力を追加する必要があります。 –