2013-05-30 19 views
5

KaggelのJob Salary Predictionを見ると、数字の機能(カテゴリなど)とテキストのもの(FullDescriptionなど)があります。テキスト機能と数値機能の組み合わせについて

このようなデータのトレーニング方法を教えてください。私はTfidfTransformerを使ってテキストをベクトル化することを考えましたが、それは多くの学習アルゴリズム(例えばRandomForestRegressor)が動作を拒否する疎行列を作成します。また、テキストの特徴ベクトルを取得したら、それを他のフィーチャとどのように組み合わせるのですか?

どのようにこのようなデータを扱う上での指針ですか?

ありがとうございます!

答えて

5

私が最初に独立して各テキストフィールドのTF-IDF機能に線形モデルを学習し、他の機能への追加機能として、線形モデルの予測を追加して、組み合わせた機能にExtraTreesRegressorまたはGradientBoostedTreeRegressorを訓練するでしょう。

+0

ありがとう、それは素晴らしいアイデアです - 私はそれを試してみます。 – lazy1

+0

結合されたモデルが、テキストフィーチャの単なる線形モデル、または非テキストフィーチャのみのランダムフォレストよりも優れているかどうかをお知らせください。 – ogrisel

+0

BTW:どのリグレッサーが疎なマトリックスで動作しますか? – lazy1

関連する問題