私はいくつかのテキストファイルの単語に文法のカテゴリを割り当てるpythonスクリプトを書いています。各テキストファイルには、角括弧<>内にファイルヘッダーがあります。テキスト全体には、タイムスタンプ、ページ番号、転記者からの質問などの情報を含む追加の行もあります。私はこれらの行を削除したい。そこヘッダの同じ数が他の<>材料が変化し、各ファイル内にあるので、私は特定の行を排除することはできませんにもかかわらずPython、正規表現で角括弧内の行を削除する
<title Titipuru Supay>
<speaker name>
<sex female>
<dialect Pastaza>
<register narrative>
<contributor name>
chan; payguna serenkya man chiga;
<ima?>
payguna kirina man, chiga, mana
shayachira; ninagunan shi tujsirani nira:
illaparani nira shi illapay
<173>
pasasha, ima shi kasna nin, nisha,
:これは、テキストファイルがどのように見えるか、基本的です。だから私は<のすべてを取り除き、括弧を含むre.sub文のような単純なものを試してみると思った。
with open(file, encoding='utf-8') as file_in:
text = file_in.read()
re.sub(r"<.*>", " ", text)
私はpythex.orgに*>。<を試してみましたが、それはテスト文字列との両方の場所で働いていたregex101はなく、私のスクリプトで(はい、私はインポートの再を持っています)。私はまた、次のような他のソリューションを試しました:
私はちょうど正当な正規表現を取得していないまたはここに何か深い?
を参照してください?あなたは 're.sub()'の結果をどこかに残しましたか? - それは動作しません - 新しい文字列を生成します。 – alecxe
出力の下にprint(text)文を追加しましたが、すべての<>材料がまだ残っていることがわかりました – Wangana
'text = re.sub(r" <[^> * * "" "" text ) '。そうでない場合は、テストするテキストを追加してください。 –