2016-07-18 16 views
-1

Python 3.xを使うと、文章を個々の単語と句読点に分割する必要があります。どのように文章を分割して句読点付きの単語に分割できますか?

\ "これは文章です。"

は、[ "この"、 "ある"、 "A"、 "文"、 ""]

に分割

を私はしかし場合は、forループを使用した単語と一致するようにしようとしています空白に.split()すると "文"になるので、一致しない単語 "文"と一致するようにしようとします。 "文"の代わりに使用され、句読点のために一致しません。これを行う最善の方法は何でしょうか?

+2

分割するトークンのリストに句読点を追加します。正規表現にする必要があります:http://stackoverflow.com/questions/10974932/python-split-string-based-on-regular-expression – duffymo

+1

トークナイザを使用してください:http://www.nltk.org/api/nltk.tokenize .html – ayhan

+0

実際、ホイールを再発明しようとしないでください。[nltkツールキットのPunkt tokenizer](http://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.punkt)はかなり機能しますよく –

答えて

-1

split( "。、:")と他のセパレータを使用してください。

+0

と 's ="これはまた文であり、実際には ''、 's.split("。、; ")'は '['これも文です、本当に']'になります。コンビネーション "、"; " –

関連する問題