1
これを参照するとpostです。私たちが空間の語彙をどのようにしてCountVectorizer
モデルに提供するのかと思います。 distributed systems
またはmachine learning
?次に例を示します。scikit-learnにスペースのある語彙を提供するCountVectorizer
import numpy as np
from itertools import chain
tags = [
"python, tools",
"linux, tools, ubuntu",
"distributed systems, linux, networking, tools",
]
vocabulary = list(map(lambda x: x.split(', '), tags))
vocabulary = list(np.unique(list(chain(*vocabulary))))
我々はモデル
ここfrom sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer(vocabulary=vocabulary)
print(vec.fit_transform(tags).toarray())
に、この語彙リストを提供することができ、私は言葉distributed systems
(最初のカラム)のカウントを失いました。結果は次のようになります。
[[0 0 0 1 1 0]
[0 1 0 0 1 1]
[0 1 1 0 1 0]]
token_pattern
または別の場所に変更する必要がありますか?
本当にありがとうございました@Zichenを、これは私が探しているものです
次の方法でそれを行うために
CountVectorizer
をだますことができます。 'tokenizer'を使って問題を非常に便利にします。 – titipata