3
私のテキストデータの一部にsklearnのTfidfVectorizer()を使用して、各機能(単語)の用語頻度を知っています。私の現在のコードは、私が最も高く(またはその逆)、たとえば、TOP10に最低から「X_traintfidf」内の各用語のTF-IDF値をソートし、これらのソートされたTFを作りたい場合はTfidfVectorizerの出力をtf-idfでソートする(最低から最高、またはその逆)
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(analyzer='word', stop_words = 'english')
# fit_transform on training data
X_traintfidf = tfidf.fit_transform(X_train)
次-idf値を2つのSeriesオブジェクトにランキングすると、コードの最後の行からどのように進めるべきですか?
ありがとうございます。
私は同様のthreadを読んでいましたが、それを行う方法を理解できませんでした。多分、誰かがそのスレッドに表示されているヒントをここの質問に結びつけることができます。