2013-04-10 3 views
5

を保持するためにsklearn TfIdfVectorizerによって返されました。私はscikit学習分類子とテキスト特徴抽出、特にTfidfVectorizerクラスを使用して、テキスト分類問題に取り組んでいますより多くの機能

問題は、私はTfidfVectorizerから得られたnグラムにより特徴の二種類、最初に捕捉されており、他の私は、各文書から抽出ドメイン固有の特徴であるということです。私は各文書のために単一の特徴ベクトルの両方の特徴を結合する必要があります。これを行うには、このドキュメントのドメイン機能を保持する各行に新しいディメンションを追加して、TfidfVectorizerによって返されたscipyの疎な行列を更新する必要があります。しかし、私はこれを行うためのきちんとした方法を見つけることができません。単純に、メモリに収まらないので、疎な行列を密な行列に変換しないことを意味します。

私はscipyとscikitの両方に慣れているので、おそらく私はscikit-learnや何かの機能を欠いているでしょう。

答えて

5

私は最も簡単なカスタム機能を備えた新しいスパース行列を作成し、機能をスタックするscipy.sparse.hstackを使用することだと思います。 パイプラインモジュールの「FeatureUnion」も役立つかもしれません。

+0

「FeatureStacker」が見つかりませんでした。「FeatureUnion」を意味しますか? – iBrAaAa

+0

申し訳ありません、yest、それは私が意味していたことです。 –

+0

FeatureUnionが機能しました、ありがとう! – iBrAaAa

関連する問題