feature-selection

    -1

    2答えて

    私は、72の機能を持つデータセットのランダムフォレストモデルを持っています。目的は、機能のインポートを見つけて機能の選択に使用することです。 rf = RandomForestRegressor(n_estimators=XXX) rf.fit(X, y) 私は彼らの特徴値と予測変数のリストを取得することはできませんよ、それだけで各機能名にマップすることは非常にdiffficultである、7

    0

    1答えて

    私は、124の特徴を持つカテゴリと数値のデータからなるデータセットを持っています。その次元を減らすために、私は無関係の特徴を取り除きたい。しかし、私は1つのホットとして、私はクロスバリデーションと再帰的な特徴の排除を実行することができ、結果のデータでは391 In[16]: X_train.columns Out[16]: Index([u'port_7', u'port_9', u'por

    0

    1答えて

    グリッドで2つのプロセッサとプリプロセッサを検索するコードを記述したいだけでなく、さまざまな機能の組み合わせにも対応しています。私はgridsearchCVの中でRFECVを使ってこれを行いました。しかし、これは実行に時間がかかります。そのため、私はその順序を逆転させた。私はグリッド検索を行い、それをRFECVの中に入れました。今、最高のモデルで実際にどの機能が選択されているかを確認して印刷します

    -1

    1答えて

    私はまだ機械学習のこの領域を探求していますが、フィーチャの選択と次元の削減の違いは何ですか、フィーチャの選択や次元の削減を行うときの概念を把握するのは難しいことです。 約40個のフィーチャを持つデータセットがあると仮定して、次元メンテナンスリダクションのみを実行するか、フィーチャ選択を単独で実行するのがよいでしょうか?あるいは、両方のアプローチのハイブリッドが存在するか(すなわち、最初にフィーチャ

    0

    1答えて

    私はデータセットを持っていて、予測結果に対応するフィーチャを他よりも選択したいと考えています。私はテストの順位、いくつかの機能を実装しているし、ここでの結果です: は、私は最高の「平均」値で機能を選択した予測モデルについて。 X = oil_10[['Sidetrack Code','Well Type Code','Well Status Code','Producing Formation'

    0

    1答えて

    SIFTとSVMを使用して、画像を2つのクラス(クリーンとの不具合をに分ける)を分類しようとしています。 画像の種類によって5〜100のSIFT記述子を抽出できます。 これまでにたどってきた手順は次のとおりです。 イメージからSIFTフィーチャを抽出します(可変数)。 すべての画像から一定数のベクトル(K-Means center)を得るために、K-Meansクラスタリングを実行します。 前のステ

    -1

    1答えて

    MXMパッケージから変数選択にMax-min Markovブランケットアルゴリズムを使用しています。次元(95933 x 85)の連続値の行列mmmb manual page私のデータセットDによると Error in unique(as.numeric(target)) : (list) object cannot be coerced to type 'double' され、私のtarg

    -1

    1答えて

    これに関連する多くの似たような質問にもかかわらず、なぜアルゴリズムが影響を受けやすいのか理解できませんでした。 これまでSVMとK-meansは線形回帰と意思決定木ではないが、フィーチャスケーリングの影響を受けやすいことが分かった。一般に、またはこの4アルゴリズムに関連する。 私は初心者ですから、このことを素人の言葉で説明してください。

    1

    1答えて

    Borutaパッケージで変数を選択しています。ボルタは標準グラフシリーズを1つのグラフに表示しますが、これは便利ですが、プレゼンターが多すぎるという事実を考えると、ボルタプロットに現れるボックスプロットの数を制限できることを望んでいる。次の画像のようなもの。 Basicaclyは、私はプロットの右端の「ズーム」にしたいが、どのように行うには考えていることborutaプロットオブジェクトと。 おかげ

    0

    2答えて

    の可能性を予測するために、以下は真である:私はそれぞれに属する入力のための確率を予測しようとしている 12クラス。 入力が12クラスのいずれにも属していない可能性があります。つまり、12個の出力(確率)はすべて低くなります。 出力確率は独立している必要があります。つまり、クラス1の可能性が95%であれば、クラス2の可能性は5%を超える可能性があります。つまり、いくつかのクラスが類似しているため、合