私はpython2.7を使用して、EDGARファイル(.txtファイルとしてオンラインで入手可能)から文書のテキストを削除したいと考えています。ファイルがどのように見えるかの例はここにある:EDGARファイルの解析
EDGARは、このファイルの48ページから始まるその文書型定義を提供します。
私のプログラムの最初の部分を取得しますEDGARオンラインデータベースの.txtファイルを、 "parseme.txt"という名前のローカルファイルにコピーします。私が知りたいのは、DTDを使って.txtファイルを解析する方法です。私は、仕事のためにBeautifulSoupのような缶詰めの解析モジュールを使用しますが、EDGARのフォーマットは一意であるように見えますし、仕事を完了させるための大きな正規表現を避けることを望みます。
import os
filename = 'parseme.txt'
with open(filename) as f:
lines = f.readlines()
私の質問はParse SGML with Open Arbitrary Tags in Python 3とUse lxml to parse text file with bad header in Pythonでの質問に関連しているが、私の質問はpython2.7に関連し、私は明確な信じていると私は、ヘッダーに関係ないんだけどさ - 私はのテキストを持つだけ心配ファイル。
ここではPythonのバージョンが大したことはないと思います。あなたは、リンクされた質問への回答で提供されたアイデアを試しましたか?あなたはどこにいらっしゃいますか? – mzjn