2016-04-15 16 views
2

私はすべての句読点を削除したいという文章があります。Pythonの中国語の句読点を削除するには

首页 » 政策法规 » 正文吉林省实施《中华人民共和国老年人权益保障法》若干规定 发布时间: 2008-01-04    

空白を含むすべての中国語の句読点を削除します。以下は私のコードです:

line = line.decode("utf8") 
line = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、[email protected]#¥%……&*():;《)《》“”()»〔〕-]+".decode("utf8"), "".decode("utf8"),line) 

しかし、私はまだ空のスペースを持っていません。中国の句読点を削除する簡単な方法が存在するのだろうか?

+0

は、私は別の文を追加するとし '想做/兼_职/学生_ /的、加、我Q:1 5. 8 0 !! ?? 8 6。 0。 2. 3有、惊、喜、哦 '私の質問では、私はそれを投稿することはできません。 – flyingmouse

+0

あなたの例は十分であり、その文は迷惑メールになる可能性があるので、質問には追加しないでください。 –

答えて

0

re.subは、patternがUnicodeで、あなたのコードのようにsub(pattern, repl, string, count=0, flags=0)

あるreplもユニコードである(実際には、復号化するために必要ではない)、

しかしstringは、UTF-8エンコードされた文字列ではないユニコードで

これを試してみて、

print re.sub(ur"[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、[email protected]#¥%……&*():;《)《》“”()»〔〕-]+", "", s.decode("utf8")) 
関連する問題