私は信用リスクモデリングを行っており、データには多数のフィーチャーがあります。フィーチャー選択にborutaパッケージを使用しています。パッケージは計算コストが高すぎます。完全なトレーニングデータセットでは実行できません。私がしようとしているのは、トレーニングデータのサブセット(約20-30%と言いましょう)をとり、サブセット化されたデータでborutaパッケージを実行し、重要な機能を取得することです。しかし、ランダムフォレストを使用してデータを訓練するときには、完全なデータセットも使用しています。私の質問は、列車データの一部にしかフィーチャを選択しないことですが、トレーニングデータ全体でモデルを構築するのは正しいですか?フィーチャーの選択(Boruta)
0
A
答えて
0
質問は本質的に論理的であるので、私は2セントを与えます。
- 人口の20%の単一のランダムサンプルが、私は
- はさらに一歩3-4ランダムセットを取ることになると、それらのすべての重要な変数の交点が改善されると信じて十分です複数の方法(xgboost、いくつかのキャレット特徴選択法)からの特徴選択を使用して上記
- へ - >それらのそれぞれに異なるランダムなサンプルを使用して、共通の重要な機能
+0
ありがとうございます。私は上記の提案を試してみます。 –
+0
あなたの投稿をデータセットのサイズで見ただけです。 500kの観測値と19個の変数だけが実際にはそうではありません。あなたは機能選択をする必要がありますか?必要な場合は、xgboostパッケージを使用してモデルを作成してください。それは、組み込み機能の選択を行います。次に、パッケージの重要度関数を使用して、モデル内の変数の重要度を取得します。 500kの観測と300個以上の機能を備えたプロセス全体について、同じ仕様のシステムで約2〜3分かかります。 –
関連する問題
- 1. フィーチャーの選択
- 2. H2O randomForestカラム/フィーチャー選択
- 3. PythonのSVM:フィーチャー選択の後
- 4. 相関を使用したフィーチャー選択
- 5. Borutaボックスプロットin R
- 6. クラッシュBorutaプロット
- 7. 多数のフィーチャのscikit-learnのフィーチャー選択
- 8. Scipy Sparse Arraysを使用したF-Regressionのフィーチャーの選択
- 9. 選択されたフィーチャー名を取得するTFIDFベクトル化ツール
- 10. PythonでLinearSVCでフィーチャー選択を使用する
- 11. ノードを選択し、D3.jsのフィーチャーIDでその接続をハイライト表示
- 12. データが少ない、疎と不均衡のときのフィーチャー選択
- 13. フィーチャーの検出 - ライオンスクロールバー
- 14. itermとzshのフィーチャー
- 15. Drupal 7 UUIDフィーチャー
- 16. クラウドMLフィーチャー法
- 17. 選択リストのjquery選択
- 18. Arcpy、文字列の一部に基づいてフィーチャーを選択してください
- 19. 選択オプションの選択複数選択オプションのデータ属性
- 20. IONICイオンの選択は「選択」私のイオンアプリで選択
- 21. ベクタータイプの「フィーチャー」列のフィルタリング
- 22. リストページのCS-Cartフィーチャーの値
- 23. フィーチャー指向プログラミング - 例
- 24. 選択非表示の選択ボックスと選択ボックスオプションを選択に基づいて選択します。
- 25. 選択した次の選択を選択
- 26. 選択2複数選択デフォルトの選択
- 27. JPA [2.1] for Karafのフィーチャー/バンドルリスト
- 28. フィーチャー、ストーリー、タスクブランチの使用?
- 29. アイコンの場所フィーチャーopenlayers3
- 30. Flutter RaisedButtonの選択状態の選択
その間違っていない考慮サンプルを取ります'SRSは交換なし'であり、正確なモデルを構築する '。この運動を2〜3回試してみてください。計算上高価なのはどういう意味ですか?データサイズとコンピューティングリソースはどれくらいですか? –
サイズは約150メガバイトです。私はR studioで走っています。 PC仕様:8GB RAM、第6世代i5 –
バイトサイズの観点からは、150MBは大きなデータサイズではありません。処理するのに十分なリソースがあります。私は観察の数について尋ねていた。このデータを処理するのにどれくらいの時間がかかりますか? –