feature-selection

    0

    1答えて

    入力フィーチャセットのサイズが〜54の回帰問題を解決しようとしています。 単一予測子「X1」でOLS線形回帰を使用すると、Yの変化を説明できません。したがって、回帰フォレスト(つまり、ランダムフォレスト回帰)を使用して追加の重要な機能を見つけようとしています。選択された「X1」は、後で最も重要な特徴であることがわかります。 私のデータセットは約14500エントリあります。私はそれを9:1の比率で訓

    0

    3答えて

    で折りたたみごとの特徴抽出機能選択を実行する必要があります。私は10倍のクロスバリデーションのためにトレーニングとテストセットに分裂がありません。誰かが、折りたたみごとに機能選択を行う必要があると私に言った。しかし、私はそれをどうやって行うのか分かりません。ここに私のコードの一部があります。 vec = DictVectorizer() X = vec.fit_transform(instanc

    -1

    1答えて

    2つのフィーチャと10000サンプルのデータセットがあります。これらの2つの機能を1つの機能に変換(統合)して、さらに分析したいと思います。ですから、私は特徴抽出法を使いたいと思います。 2つのフィーチャの関係は線形ではないため、従来のPCA以外の方法を使用したいと考えています。 サンプル数がフィーチャの数よりはるかに多いため、オートエンコーダはフィーチャ抽出に適しています。しかし、入力フィーチャ

    -1

    1答えて

    私は項目と機能(属性)を持つデータセットを持っています。各項目にはいくつかの機能があります。 〜400の機能の総数。 フィーチャの重要度に基づいてランク付けしたいと思います。私は分類を探していない、私は機能のランキングを探しています。 アイテムフィーチャをfowllowingのようなバイナリマトリックスに変換します.1はこのアイテムがこのアイテムに存在し、そうでない場合は0であることを意味します。

    0

    1答えて

    この記事の内容:http://nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/私は、テキスト分類タスクでGloVeの事前に訓練されたベクトルでgensim word2vecモデルを実装しようとしています。しかし、私はテキストデータでもFeatureSelectionをやりたいと思います。私はパイプライン

    -1

    1答えて

    私はjson形式の大きなデータセットを持っています。このデータセットから、最も分散を捕捉する重要な属性を抽出します。これらの属性を抽出して、これらの属性をハッシュキーとして、データセット上に検索エンジンを構築したいと考えています。 ここで主に質問されているのは、jsonデータの機能選択です。

    0

    1答えて

    フィーチャ選択で変数の名前を定義しようとしています。私は X, y = df.ix[:, 1:], df.ix[:,[0]] X_dummy = pd.get_dummies(X) そして from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 X_new =

    0

    1答えて

    私は、RBFカーネルを持つSVMクラシファイアのための最も有益な(ベスト)機能のトップ10を取得しようとしています。私はプログラミングの初心者なので、私はオンラインで見つけたいくつかのコードを試しました。残念ながら、何も働かない。私はいつもエラー:ValueError: coef_ is only available when using a linear kernelを得る。 これは私がテストし

    0

    1答えて

    製品タイトルのマルチクラス分類子を作成して11のカテゴリーに分類するタスクがあります。私はscikitのLinearSVCを分類に使用しています。ストップワードを削除し、lemmatizationにPOSタグを使用し、TFIDFベクタライザでバイグラムを使用することで、最初に製品タイトルを前処理しました。 ここでは、機能選択の方法としてchi2を使用して、これらの重要な機能を削除してからトレーニン

    -1

    1答えて

    私は機能の選択について学んでいます。 私はthisを見つけました。多くのカーネルが相関係数行列をチェックしています。 (上のリンクでは、3種類の特徴選択法を紹介しています。最初に、相関係数とカイ二乗検定を含むフィルタ法です) なぜフィーチャ選択に相関係数を使用できますか? 私は、2つ以上の変数または非線形関係の組み合わせの効果を表すことができないように、2つの変数間の線形関係のみを示すことができる