0
私が勉強したいテキストがあるとしましょう。文章と段落の数は、そのままで保存することが重要です(点が文の終わりをトリガーし、改行が新しい段落の開始点になります)。のは、私が最初に私のテキストをトークン化する必要があるとしましょう:あなたが見たよう改行と段落構造を維持しながらトークン化
>>> from nltk import word_tokenize as tokenize
>>> tokenize('How\'s life? Aren\'t you feeling good\n bro?')
['How', "'s", 'life', '?', 'Are', "n't", 'you', 'feeling', 'good', 'bro', '?']
、出力は言葉を越えた情報を無視リストです。
>>> s = ['How', "'s", 'life', '?', 'Are', "n't", 'you', 'feeling', 'good', 'bro', '?']
>>> " ".join(s)
"How 's life ? Are n't you feeling good bro ?"
ただし、段落構造が既に失われているため、十分ではありません。 NLTKのトークナイザを使ってこれを行う簡単な方法はありますか?私はむしろ最初の解決策として別の図書館に頼っていません。