@(@で始まる)やハッシュタグ(#で始まる)以外のツイートの言葉を得たいと思います。@endionや#hashtagでないツイートのすべての単語を取得するためのPython正規表現
私のコードは次のようである:
import re
pattern=r'(?u)\b\w\w+\b'
pattern=re.compile(pattern)
pattern.findall('this is a tweet #hashtag @mention')
この正規表現での結果は これは
つぶやきハッシュタグの言及であるが、私はハッシュタグと言及したくないです結果はになります。 私は結果になりたい:
これは .thisの出力はつぶやきあるので、私は代わりに、\ bの空白は使用できませんつぶやき
注意です(注意してください。 も でなければなりません。 \ bは単語の開始を強制的に非英数字にしますが、\ sを使用するとはこのは検索結果に含まれません。
あなたは、私がこの正規表現を与えている正規表現 –
を適用した後、出力をフィルタリングし、@や#文字をあなたの言葉にオプションの接頭辞を確認し「これはつぶやきは」私のものではない別の関数(scikit-learnのtfidfvectorizer)は、私がpost/pre処理を行うことができないので、正規表現はその仕事をするべきです。 – Ash