2017-03-22 6 views
1

シンボル「 - 」を含む1つのトークンワードとして識別するために、scikit-learn CountVectorizerが必要です。これは、2つに分割されない「調理時間」のようなタグを扱うためです。CountVectorizerトークンパターン

token_patternパラメータに正しい正規表現を設定していると思いますが、それを行うことはできません。

私はそれだけで、たとえば、独自のトークナイザを書く方が簡単です

token_pattern=u'(?u)\b\w\w+(-)?\w+\b' 
+0

この正規表現を適用した後の正と負の例はありますか? – Jeffrey04

答えて

-1

ような何かをしようとしています:

def Tokenize(text): 
    for char in (',', ';', ':'): # Here the special chars you want to remove 
     text.replace(char, '') 
    return text.split(' ') 

その後CountVectorizerに直接呼び出し可能(括弧を付けずに機能)を渡します。

関連する問題