私はsklearnを使ってtf-idfの値を次のように求めています。pythonでsklearnのtf-idfのスコア行列を出力するには
from sklearn.feature_extraction.text import TfidfVectorizer
myvocabulary = ['life', 'learning']
corpus = {1: "The game of life is a game of everlasting learning", 2: "The unexamined life is not worth living", 3: "Never stop learning"}
tfidf = TfidfVectorizer(vocabulary = myvocabulary, ngram_range = (1,3))
tfs = tfidf.fit_transform(corpus.values())
ここで、計算されたtf-idfスコアを次のように表示します。
次のようにしてみました。
idf = tfidf.idf_
dic = dict(zip(tfidf.get_feature_names(), idf))
print(dic)
ただし、次のように出力されます。
{'life': 1.2876820724517808, 'learning': 1.2876820724517808}
私を助けてください。
あなたは 'tfidf.fit_transform(から取得する実際の出力)'だけこの形態であるを取得するために簡単な変更を行うことができます。必要なのは 'tfidf.get_feature_names()'から得られるカラム名だけです。これらの2つをデータフレームにまとめてください。 –