Scikit-Learnテキストで句読点を保持する方法CountVectorizerまたはTfidfVectorizer？

ですが、私はの句読点を維持するためにどのような方法！、？、 "および"のテキストCountVectorizerまたはTfidfVectorizerパラメータを使用して、私のテキスト文書から事前に？Scikit-Learnテキストで句読点を保持する方法CountVectorizerまたはTfidfVectorizer？

感謝をScikit-ご覧ください。

あなたがカスタマイズする必要があります。あなたはベクトライザーをインスタンスtoken_patternパラメータは、例えば：

vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")

2016-08-31 19:38:09 elyase

あなたは、高速応答を@elyaseありがとう脱出を| | \ | \ "| \」の仕事をしてくれました。！？。私はパラメータ '（？u）\ b \ w \ w + \ b |！\ \ | \ "| \' 'を試しましたが、 "とにかくお返事ありがとう... –

喜んでお待ちしています！生の文字列（r'string '）については、第2段落[ここ]（https://docs.python.org/3.5/library/re）をご覧ください。 .html）。 – elyase

答えて