私はそこに32の記事を含むテキスト文書を持っています、そして、私は各記事の日付を見つける必要があります。私は日付が各記事の5行目に来ることを観察しました。これまでのところ、私が使用して32件の記事の中にテキストを分割している:それは見ることができるように日付のテキスト
:
import re
sections = []
current = []
with open("Aberdeen2005.txt") as f:
for line in f:
if re.search(r"(?i)\d+ of \d+ DOCUMENTS", line):
sections.append("".join(current))
current = [line]
else:
current.append(line)
print(len(sections))
を私はそれぞれの記事、MONTHのみYEARの日付を含むリストを作成するようになります、日付は上記の画像の形式になりますが、時にはその日は含まれません。木曜日。
アイデア?
種類について、
アンドレス
Psと。ここでは16の文書の別の例である:あなたが一日置き換えることができif
文の下に正規表現を使用して
コードはどのように見えますか? –
挿入しようとするとタブとスペースに関するエラーが表示されます。それにもかかわらず、アイデアは素晴らしいです、ありがとう! –
よろしくお願いします!イメージからの線の書式設定が正確であることを正確に伝えるのは難しいので、記事の実際の最初の5行を質問に投稿して助けてください。正確に何がエラーですか? –