私のように特徴ベクトルを生成するsklearn
からTfidfVectorizer
を使用する場合:tf-idfで新しい文書を分類するには?
features = TfidfVectorizer(min_df=0.2, ngram_range=(1,3)).fit_transform(myDocuments)
どのように私は、新しい文書を分類する特徴ベクトルを生成するのでしょうか? 1つのドキュメントのtf-idfを計算することはできません。
feature_names = TfidfVectorizer.get_feature_names()
、その後feature_names
に応じて新しい文書のための用語頻度を数える:
それはと機能名を抽出するために、正しいアプローチだろうか?
しかし、私は単語の重要性の情報を持つ重みを取得しません。