Python 3.xを使うと、文章を個々の単語と句読点に分割する必要があります。どのように文章を分割して句読点付きの単語に分割できますか?
\ "これは文章です。"
は、[ "この"、 "ある"、 "A"、 "文"、 ""]
に分割
を私はしかし場合は、forループを使用した単語と一致するようにしようとしています空白に.split()すると "文"になるので、一致しない単語 "文"と一致するようにしようとします。 "文"の代わりに使用され、句読点のために一致しません。これを行う最善の方法は何でしょうか?
分割するトークンのリストに句読点を追加します。正規表現にする必要があります:http://stackoverflow.com/questions/10974932/python-split-string-based-on-regular-expression – duffymo
トークナイザを使用してください:http://www.nltk.org/api/nltk.tokenize .html – ayhan
実際、ホイールを再発明しようとしないでください。[nltkツールキットのPunkt tokenizer](http://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.punkt)はかなり機能しますよく –