5
KaggelのJob Salary Predictionを見ると、数字の機能(カテゴリなど)とテキストのもの(FullDescriptionなど)があります。テキスト機能と数値機能の組み合わせについて
このようなデータのトレーニング方法を教えてください。私はTfidfTransformerを使ってテキストをベクトル化することを考えましたが、それは多くの学習アルゴリズム(例えばRandomForestRegressor)が動作を拒否する疎行列を作成します。また、テキストの特徴ベクトルを取得したら、それを他のフィーチャとどのように組み合わせるのですか?
どのようにこのようなデータを扱う上での指針ですか?
ありがとうございます!
ありがとう、それは素晴らしいアイデアです - 私はそれを試してみます。 – lazy1
結合されたモデルが、テキストフィーチャの単なる線形モデル、または非テキストフィーチャのみのランダムフォレストよりも優れているかどうかをお知らせください。 – ogrisel
BTW:どのリグレッサーが疎なマトリックスで動作しますか? – lazy1