prediction

1熱

2答えて

私は、Spark 2.0.0を使ってバイナリ分類のために訓練されたSVMモデルに問題があります。まったく同じデータセットを使って、scikit-learnとMLlibを使って同じロジックを辿ってきました。 svc_model = SVC() svc_model.fit(X_train, y_train) print "supposed to be 1" print svc_model.p

2熱

1答えて

相関変数のグループでは、どの変数のサブセットが残りの変数を最もよく表しているかを推測できますか？

私は1684の測定を行う60個のセンサーのデータセットを持っています。私は実験中に使用されたセンサの数を減らし、残りのセンサデータを使用して、除去されたセンサを（機械学習を使用して）予測することを望む。私はデータ（image参照）を見て、センサー間の強力な相関関係を明らかにしました。これにより、Xセンサーを取り除き、残りのセンサーを使用してその動作を予測できるはずです。残りのセット（60-X）

0熱

1答えて

R h20ニューラルネットワークの予測予測

私はh20ライブラリのニューラルネットワーク機能を初めて使用しています。私は訓練されたモデルから予測をどのように見ることができるのだろうかと思います。理想的には、データフレーム内のすべての予測を表示したり、テストデータフレームと組み合わせて、各データ行の予測と実際を確認したいと考えています。これは私がモデルを訓練し、テストするために走ったコードです： NN_model<- h2o.deeplear

0熱

1答えて

小さなデータセット<200サンプルのバイナリ分類

私は181サンプルと10個のフィーチャと1つのターゲット変数で構成されるデータセットを持っています。 10の機能は数値で連続的な性質を持っています。バイナリ分類を実行する必要があります。私は、データセットのこのサイズのために最適なモデルを選択して、私のモデルが過剰適合されていないことを確認してください可能性がどのように私を導いてください I have performed 3 Fold cross

0熱

1答えて

予測誤差Xgboost R

私はdf3という列車データセットを持っています。これはデータテーブルです。次のように私はスパース行列に変換します sparse_matrix9 = sparse.model.matrix(ind_cco_fin_ult1~canal_entrada + nomprov + sexo + ind_empleado +

-1熱

1答えて

R警告：newdataの行は15行ですが、見つかった変数には22行があります

ここではいくつかの回答を読んだことがありますが、私は答えを見つけ出すことができませんでした。マイRコードは次のとおりです。 colors <- bmw[bmw$Channel=="Colors" & bmw$Hour=20,] colors_test <- tail(colors, 89) colors_train <- head(colors, 810) colors_train_ag

0熱

1答えて

マルチスレッドを改善する一般的なヒント（C++で）

私は後でマルチスレッド化する必要があると考えずにC++コードをビルドしました。 OpenMPで3つのforループをマルチスレッド化しました。シングルスレッド（bashのからtimeで測定）ここでのパフォーマンス比較がある real 5m50.008s user 5m49.072s sys 0m0.877s 24個のコアの使用はでリアルタイムが減少している real 1m22.572s

0熱

1答えて

Weka：予測値

Wekaでは、予測を行うためにJ48分類器を使用しています。しかし、予測出力では、インスタンスの順序（実際の値と予測されるインスタンスの値の両方）が、私が作業しているデータセットの元の順序（つまり行）に対応していないことがわかります。これを引き起こしているのは何ですか？

0熱

1答えて

Azure ML：Azure ML予測の確信度設定とは何ですか？そしてそれは調整することができますか？

私はBoosted Treesとハイパーパラメータ設定を使用していくつかのデータにいくつかのモデルを構築しました。しかし、私は予測のためにモデルを使用しようとしているが、その多くは予測結果を出すものではなく、データの75％に及ぶものもあります。私はこれがモデルと関係があると推測しています。なんらかの理由でいくつかの結果が予測されないため、予測の信頼限界と何か関係があると思います。私がどこか間違

8熱

3答えて

トレーニングとテストのデータに同じダミー変数を残す

私は、2つの別々のトレーニングとテストセットを使って、Pythonで予測モデルを構築しています。トレーニングデータには、数値型のカテゴリ変数（例：郵便番号[91521,23151,12355、...]）と、市区町村[市区町村[ニューヨーク市]、[ロサンゼルス市] ...]。データを訓練するには、まず「pd.get_dummies」を使用してこれらの変数のダミー変数を取得し、モデルに変換されたトレ