リスト文字列のtwitterテキストデータ、たとえば次のデータがあります(実際には、これらのデータだけでなく多数のテキストがあります)。私はすべてのユーザー名を@とurlリンクの後にtwitterテキストで抽出したいと思います。たとえば、galaxy5univとurl link。Pythonは、正規表現を使用してtwitterテキストデータの@userとurlリンクを抽出します
tweet_text = ['@galaxy5univ I like you',
'RT @BestOfGalaxies: Let's sit under the stars ...',
'@jonghyun__bot .........((thanks)',
'RT @yosizo: thanks.ddddd <https://yahoo.com>',
'RT @LDH_3_yui: #fam, ccccc https://msn.news.com']
私のコード:Twitterのデータを多数のコードをテストによって
import re
pu = re.compile(r'http\S+')
pn = re.compile(r'@(\S+)')
for row in twitter_text:
text = pu.findall(row)
name = (pn.findall(row))
print("url: ", text)
print("name: ", name)
、私はURLと名前の両方のための私の二つのパターンがいくつかTwitterのテキストであるが(間違っていることを持っていますデータが正しい)。大きなTwitterのデータの場合は、Twitterのテキストから名前とURLを抽出するためのドキュメントやリンクがありますか?
Twitterのデータから名前とURLを抽出するアドバイスがありましたら、感謝してください!
'pn = re.compile(r '@([a-zA-Z0-9 _] +)')' – mic4ael
ご意見ありがとうございます。多数の名前がありますツイッターデータのデータ。名前には、a-zA-Z0-9_だけでなく、#%^などの特殊文字も含まれることがあります。この場合、どのようにそれを解決するには? – tktktk0711
大括弧内の文字のリストに追加するだけですが、一部の文字を適切にエスケープする必要があることを覚えておいてください。 – mic4ael