@endionや#hashtagでないツイートのすべての単語を取得するためのPython正規表現

@（@で始まる）やハッシュタグ（＃で始まる）以外のツイートの言葉を得たいと思います。@endionや#hashtagでないツイートのすべての単語を取得するためのPython正規表現

私のコードは次のようである：

import re 
pattern=r'(?u)\b\w\w+\b' 
pattern=re.compile(pattern) 
pattern.findall('this is a tweet #hashtag @mention')

この正規表現での結果は これは

つぶやきハッシュタグの言及であるが、私はハッシュタグと言及したくないです結果はになります。私は結果になりたい：

これは .thisの出力はつぶやきあるので、私は代わりに、\ bの空白は使用できませんつぶやき

注意です（注意してください。もでなければなりません。 \ bは単語の開始を強制的に非英数字にしますが、\ sを使用するとはこのは検索結果に含まれません。

2017-02-23 Ash

あなたは、私がこの正規表現を与えている正規表現 –

を適用した後、出力をフィルタリングし、@や＃文字をあなたの言葉にオプションの接頭辞を確認し「これはつぶやきは」私のものではない別の関数（scikit-learnのtfidfvectorizer）は、私がpost/pre処理を行うことができないので、正規表現はその仕事をするべきです。 – Ash

(?<![#@])\b\w+\b

これはデモを使用することができます。

2017-02-23 04:18:34 vks

ありがとう、これは動作しますが、単語の前の文字は英数字以外の英数字にすることができます。これはツイートです（結果の一部として返す必要があります）。@と＃を除外したいものが必要です。 – Ash

ええ、これは、ありがとう@vksです。 – Ash

1つの質問@vks、あなたは元の投稿の正規表現の冒頭でそれ（？u）が何をしているのか分かりますか？（それはsklearnからコピーされます）。 – Ash

あなたはregex以外の解決策に開かれている場合は、望ましい結果のためにfilterとlambda機能を利用することができます。

a = 'this is a tweet #hashtag @mention' 
" ".join(filter(lambda x:x[0]!='#' and x[0]!='@' , a.split()))

2017-02-23 04:46:12

ありがとうございますが、別の関数に渡す必要があります。 – Ash

答えて