1
シンボル「 - 」を含む1つのトークンワードとして識別するために、scikit-learn CountVectorizerが必要です。これは、2つに分割されない「調理時間」のようなタグを扱うためです。CountVectorizerトークンパターン
token_patternパラメータに正しい正規表現を設定していると思いますが、それを行うことはできません。
私はそれだけで、たとえば、独自のトークナイザを書く方が簡単です
token_pattern=u'(?u)\b\w\w+(-)?\w+\b'
この正規表現を適用した後の正と負の例はありますか? – Jeffrey04