4
ですが、私はの句読点を維持するためにどのような方法!、?、 "および"のテキストCountVectorizerまたはTfidfVectorizerパラメータを使用して、私のテキスト文書から事前に?Scikit-Learnテキストで句読点を保持する方法CountVectorizerまたはTfidfVectorizer?
感謝をScikit-ご覧ください。
ですが、私はの句読点を維持するためにどのような方法!、?、 "および"のテキストCountVectorizerまたはTfidfVectorizerパラメータを使用して、私のテキスト文書から事前に?Scikit-Learnテキストで句読点を保持する方法CountVectorizerまたはTfidfVectorizer?
感謝をScikit-ご覧ください。
あなたがカスタマイズする必要があります。あなたはベクトライザーをインスタンスtoken_pattern
パラメータは、例えば:
vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")
あなたは、高速応答を@elyaseありがとう脱出を| | \ | \ "| \」の仕事をしてくれました。!?。私はパラメータ '(?u)\ b \ w \ w + \ b |!\ \ | \ "| \' 'を試しましたが、 "とにかくお返事ありがとう... –
喜んでお待ちしています!生の文字列(r'string ')については、第2段落[ここ](https://docs.python.org/3.5/library/re)をご覧ください。 .html)。 – elyase