私はここで、それは英語とテルグ語が含まれている言語の混在から単語を得ることにいくつかの助けを必要とする私のコードは、これまででPythonの英語とテルグ語の両方の数学へのregex /デーヴァナーガリーの言葉
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
sentence="hello world యూనియన్ యూనియన్"
sentence=sentence.decode('utf-8')
for m in re.finditer(ur'(\w|\’\w|\'\w)+', sentence, re.UNICODE):
start, end = m.span()
word = m.group().encode('utf-8')
print start, end, word
i「は結果期待mは
0 5 hello
6 11 world
11 17 యూనియన్
17 23 యూనియన్
ですが、私が得る結果は
0 5 hello
6 11 world
12 13 య
14 15 న
16 18 యన
20 21 య
22 23 న
24 26 యన
コードがLANGのすべての文字を分割しています独立した開始と終了の長さを与えます。文字の代わりに単語として上記の形式で結果を得ることができる方法はありますか
これは、コードで多くのあなたの助けに感謝します。 –