re.split（）を使用してutf-8テキストで正しく動作する

大きなロシア語のテキストをsumbols '\ s。、？！'のない単語に分割しようとしています。re.split（）を使用してutf-8テキストで正しく動作する

実際に私はre.split（）とre.findallを正しく使用する方法を理解していません。私はそれらを使用した後、すべての単語をutf-8 sumbolsに変換するからです。

ありがとうございます。 [実用的なユニコード]（http://nedbatchelder.com/text/unipain.html：

file_read = None 
    file_name = 'untitled.txt' 
    with codecs.open(file_name, 'r+', encoding='utf-8') as fin: 
     file_read = fin.read() 

words = re.split('u[\s.,?!]', file_read) 
words = re.findall('\w+', file_read)

出典

2016-11-20 J. Zappa

untitled.txtファイルからすべてのロシア語の単語を盗んます）は、ベテランのNed Batchelderによって書かれました。 –

これはあなたが役に立つこの記事を見つけることができ

file_read = None 
file_name = 'untitled.txt' 
with codecs.open(file_name, 'r+', encoding='utf-8') as fin: 
    file_read = fin.read() 
words = re.findall(ur'[а-яёА-ЯЁ]+', file_read)

出典

2017-03-13 12:46:32

re.split（）を使用してutf-8テキストで正しく動作する

答えて

関連する問題