0
私はすでにSklearnを使用してTFIDFを行っていますが、ストップワード用の英語は使用できません。私が必要とするのは、ストップワードのリストを含むtxtファイルをインポートすることです。Sklearn - txtファイルからカスタムストップワードリストを追加する方法
stopword.txt
saya
cintakan
awak
tfidf.py
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ['Saya benci awak',
'Saya cinta awak',
'Saya x happy awak',
'Saya geram awak',
'Saya taubat awak']
vocabulary = "taubat".split()
vectorizer = TfidfVectorizer(analyzer='word', vocabulary=vocabulary)
X = vectorizer.fit_transform(corpus)
idf = vectorizer.idf_
print dict(zip(vectorizer.get_feature_names(), idf))
してくださいアドバイス。ありがとうございました。
なぜあなたのコーパスを前処理せずに、これらのストップワードを 'TFIDFVectorizer'で実行する前に自分自身を削除するのはなぜですか? –
これは単なる例です。本当のものは本当にたくさんの言葉を含んでいます。あなたの理解のためだけに。 –