2017-09-20 12 views
-1

私はscikitのロジスティック回帰と線形SVCを使用して、文書をラベル0とラベル1で示される2つのカテゴリに分類します。私は機能選択のためにTFIDF Vectorizerを使用しており、テスト文書からすべての非ゼロ特徴を抽出しましたTFIDF Vectorizerの変換関数を使用して、ラベル1またはラベル0に特定の機能が使用されているかどうかを知りたいのですが。ScikitLearnの任意のモデルでフィーチャの関連性を確認するにはどうすればよいですか?

基本的に私の分類器がラベル0、どのような特徴をもってその答えを出したのか。

答えて

0

機能名を抽出するにはget_feature_names()関数を使用できます。フィーチャ名に対するフィーチャインデックスの配列マッピングを取得します。あなたはそれについてもっと読むことができますhere

This exampleは、機能名の印刷方法を説明しています。

対応する関連性の値は、this linkから取得できます。 のセクションにスキップしてください。tf-idfマトリックスの意味を理解してください。あなたはfeature_names()を使用してトップ値を抽出することがわかります。

EDIT:異なる分類子には、機能の関連性を抽出するさまざまな方法があります。 SelectFromModel in sklearnを使用すると、選択した分類子に基づいてフィーチャを抽出できます。フィーチャインデックスを取得するには、関数get_supportを使用できます。 Hereはその例です。

+0

これを使用して、機能名のみを調べることができますが、結果を生成するために分類機能で使用されている機能の関連性を知りたいと思います。 –

+0

@ShubhamGarg申し訳ありませんが、私はあなたの質問に誤解しました。私は私の答えを更新しました。それが役立つかどうかを見てください。 –

+0

実際に私は、その分類子のための特徴の関連性を見つけるために、scikit分類子に存在するcoef_属性を利用しました。 –

関連する問題