WhatsAppのチャットテキストを1つの単語に分割しようとしていますが、emojisのユニコードを追加の区切り文字として使用する方法がわかりません。Python:区切り文字としてemojisを含むテキストを分割する
http://unicode.org/emoji/charts/full-emoji-list.htmlによると、ユニコードの例はU + 1F602です。私は以下を試しましたが、うまくいきません。
text = file.read()
delimiters = " ", "..", "\"", "<", ">", "/", u"U+1F602"
regexPattern = '|'.join(map(re.escape, delimiters))
list = re.split(regexPattern, text)
どのようなpythonのバージョンですか?定義は機能しません。ここで(python2.7.11 +)このスニペット(https://gist.github.com/lauromoura/f46442e25d1e08519af4aaef972cad3b)はすべての文字を分割して問題なく動作しました。たぶん、入力文字列に関連する何か? –
ok、私はPython 2.7.10を使用しています。多分それがなぜ動かないのですか? – Philip94
私はそれを修正しようとしています – Philip94