次の正規表現を使用して、文字列として渡された句を単語のリストに分割しています。分割時のPythonの再追加
他の文字がある可能性があるため、私はUTFフラグを使用しています。これは、ほとんどの場合、素晴らしい作品:周り
phrase = 'hey, my spacebar_is broken.'
word_list [u'hey', u'my', u'spacebar', u'is', u'broken', u'']
私の仕事:フレーズは、このような期間で終わる文であれば、
しかし、それは、リスト内のブランク値を作成します。 re.split(r'[\W_]+', unicode(phrase.strip('.'), 'utf-8').lower(), flags=re.U)
を使用することですが、私は正規表現の中でそれを解決する方法があったのですか?
可能な重複http://stackoverflow.com/questions/:
また、あなたはそれらをマッチング直接ではなく、分割した単語を取得することができます16840851/python-regex-split-without-empty-string) – niemmi