2017-12-19 22 views
2

の実行順序私は、次のScikit-学ぶパイプライン - トランス

  1. は、単語数、ハッシュタグの数のように(テキストに新しい機能を作成してくださいしたいテキスト分類に取り組んでいますなど)、顧客の変圧器とTextCounts
  2. クリーンテキストカスタムトランスとCleanText、それ
  3. CountVectorizerを適用し、私のCLのための入力として、ステップ1と2の機能を組み合わせassifier

私はこのためにパイプラインを作成することができましたが、上記のように動作するかどうかはわかりません。

features = FeatureUnion(n_jobs=-1, 
    [('textcounts', TextCounts()) 
    , Pipeline([ 
     ('cleantext', CleanText()) 
     , ('vect', vect) 
     ]) 
    ]) 

pipeline = Pipeline([ 
    ('features', features) 
    , ('clf', clf) 
]) 

実際、クリーニングされたテキストまたは元のテキストにCountVectorizerが適用されているかどうかはわかりません。それを理解する方法はありますか?ありがとう!

+1

FeatureUnionは、すべての内部トランスに同じ入力データを供給します。あなたがここでやろうとしていることは正しいのです。 –

答えて

0

FeatureUnion内のステップは並列に適用されます(実際には並列でもn_jobs = -1のコアを持つように多くのジョブを許可します)。そう、はい、CountVectorizerは、消去されたテキストに適用されます。

thisブログのグラフィックスはかなり明確だと思います。

「見つけ出す方法はありますか?」については、my answer hereを参照してください。

関連する問題