2016-11-20 6 views
2

大きなロシア語のテキストをsumbols '\ s。、?!'のない単語に分割しようとしています。re.split()を使用してutf-8テキストで正しく動作する

実際に私はre.split()とre.findallを正しく使用する方法を理解していません。私はそれらを使用した後、すべての単語をutf-8 sumbolsに変換するからです。

ありがとうございます。 [実用的なユニコード](http://nedbatchelder.com/text/unipain.html:

file_read = None 
    file_name = 'untitled.txt' 
    with codecs.open(file_name, 'r+', encoding='utf-8') as fin: 
     file_read = fin.read() 

words = re.split('u[\s.,?!]', file_read) 
words = re.findall('\w+', file_read) 
+1

untitled.txtファイルからすべてのロシア語の単語を盗んます)は、ベテランのNed Batchelderによって書かれました。 –

答えて

0

これはあなたが役に立つこの記事を見つけることができ

file_read = None 
file_name = 'untitled.txt' 
with codecs.open(file_name, 'r+', encoding='utf-8') as fin: 
    file_read = fin.read() 
words = re.findall(ur'[а-яёА-ЯЁ]+', file_read) 
関連する問題