2
大きなロシア語のテキストをsumbols '\ s。、?!'のない単語に分割しようとしています。re.split()を使用してutf-8テキストで正しく動作する
実際に私はre.split()とre.findallを正しく使用する方法を理解していません。私はそれらを使用した後、すべての単語をutf-8 sumbolsに変換するからです。
ありがとうございます。 [実用的なユニコード](http://nedbatchelder.com/text/unipain.html:
file_read = None
file_name = 'untitled.txt'
with codecs.open(file_name, 'r+', encoding='utf-8') as fin:
file_read = fin.read()
words = re.split('u[\s.,?!]', file_read)
words = re.findall('\w+', file_read)
untitled.txtファイルからすべてのロシア語の単語を盗んます)は、ベテランのNed Batchelderによって書かれました。 –