2
の実行順序私は、次のScikit-学ぶパイプライン - トランス
- は、単語数、ハッシュタグの数のように(テキストに新しい機能を作成してくださいしたいテキスト分類に取り組んでいますなど)、顧客の変圧器とTextCounts
- クリーンテキストカスタムトランスとCleanText、それ
- にCountVectorizerを適用し、私のCLのための入力として、ステップ1と2の機能を組み合わせassifier
私はこのためにパイプラインを作成することができましたが、上記のように動作するかどうかはわかりません。
features = FeatureUnion(n_jobs=-1,
[('textcounts', TextCounts())
, Pipeline([
('cleantext', CleanText())
, ('vect', vect)
])
])
pipeline = Pipeline([
('features', features)
, ('clf', clf)
])
実際、クリーニングされたテキストまたは元のテキストにCountVectorizerが適用されているかどうかはわかりません。それを理解する方法はありますか?ありがとう!
FeatureUnionは、すべての内部トランスに同じ入力データを供給します。あなたがここでやろうとしていることは正しいのです。 –