2017-05-03 3 views
0

私は信用リスクモデリングを行っており、データには多数のフィーチャーがあります。フィーチャー選択にborutaパッケージを使用しています。パッケージは計算コストが高すぎます。完全なトレーニングデータセットでは実行できません。私がしようとしているのは、トレーニングデータのサブセット(約20-30%と言いましょう)をとり、サブセット化されたデータでborutaパッケージを実行し、重要な機能を取得することです。しかし、ランダムフォレストを使用してデータを訓練するときには、完全なデータセットも使用しています。私の質問は、列車データの一部にしかフィーチャを選択しないことですが、トレーニングデータ全体でモデルを構築するのは正しいですか?フィーチャーの選択(Boruta)

+0

その間違っていない考慮サンプルを取ります'SRSは交換なし'であり、正確なモデルを構築する '。この運動を2〜3回試してみてください。計算上高価なのはどういう意味ですか?データサイズとコンピューティングリソースはどれくらいですか? –

+0

サイズは約150メガバイトです。私はR studioで走っています。 PC仕様:8GB RAM、第6世代i5 –

+0

バイトサイズの観点からは、150MBは大きなデータサイズではありません。処理するのに十分なリソースがあります。私は観察の数について尋ねていた。このデータを処理するのにどれくらいの時間がかかりますか? –

答えて

0

質問は本質的に論理的であるので、私は2セントを与えます。

  1. 人口の20%の単一のランダムサンプルが、私は
  2. はさらに一歩3-4ランダムセットを取ることになると、それらのすべての重要な変数の交点が改善されると信じて十分です複数の方法(xgboost、いくつかのキャレット特徴選択法)からの特徴選択を使用して上記
  3. へ - >それらのそれぞれに異なるランダムなサンプルを使用して、共通の重要な機能
+0

ありがとうございます。私は上記の提案を試してみます。 –

+0

あなたの投稿をデータセットのサイズで見ただけです。 500kの観測値と19個の変数だけが実際にはそうではありません。あなたは機能選択をする必要がありますか?必要な場合は、xgboostパッケージを使用してモデルを作成してください。それは、組み込み機能の選択を行います。次に、パッケージの重要度関数を使用して、モデル内の変数の重要度を取得します。 500kの観測と300個以上の機能を備えたプロセス全体について、同じ仕様のシステムで約2〜3分かかります。 –

関連する問題