CountVectorizerトークンパターン

シンボル「 - 」を含む1つのトークンワードとして識別するために、scikit-learn CountVectorizerが必要です。これは、2つに分割されない「調理時間」のようなタグを扱うためです。CountVectorizerトークンパターン

token_patternパラメータに正しい正規表現を設定していると思いますが、それを行うことはできません。

私はそれだけで、たとえば、独自のトークナイザを書く方が簡単です

token_pattern=u'(?u)\b\w\w+(-)?\w+\b'

出典

2017-03-22 Sindico

この正規表現を適用した後の正と負の例はありますか？ – Jeffrey04

-1

ような何かをしようとしています：

def Tokenize(text): 
    for char in (',', ';', ':'): # Here the special chars you want to remove 
     text.replace(char, '') 
    return text.split(' ')

その後CountVectorizerに直接呼び出し可能（括弧を付けずに機能）を渡します。

出典

2017-03-22 07:36:35

CountVectorizerトークンパターン

答えて

関連する問題