私はこのように単純化することができますDATAFRAMEあります複数のデータフレーム列のパイプラインを作成する方法は?
import pandas as pd
df = pd.DataFrame([{
'title': 'batman',
'text': 'man bat man bat',
'url': 'batman.com',
'label':1},
{'title': 'spiderman',
'text': 'spiderman man spider',
'url': 'spiderman.com',
'label':1},
{'title': 'doctor evil',
'text': 'a super evil doctor',
'url': 'evilempyre.com',
'label':0},])
をそして、私は別の特徴抽出方法試してみたい:異なるnグラムの設定でTFIDF、word2vec、Coutvectorizerを、などしかし、私はさまざまな組み合わせでそれを試してみたいです:TFIDFで変換された 'テキスト'データと、Countvectoriserで 'url'、そしてTFIDFで 'url'などのテキストデータが1つのフィーチャセットに含まれます。最後に、もちろん、私はさまざまな前処理戦略を比較して、最良のものを選択したいと考えています。ここ
と質問は以下のとおりです。
パイプラインなどの標準的なsklearnツールを使用してそのようなことを行う方法はありますか?
私の考えには常識がありますか?たぶん、欠けているデータフレームの多くの列でテキストデータを扱う方法が良いアイデアですか?
ありがとうございました!
あなたの答えをありがとう。しかし、それはテキストデータでは機能しないようです。 値がありませんエラー:文字列を浮動小数点に変換できませんでした。サンプルのデータセットで試してみてください。 –
はい、数値データをチェックしないように、FunctionTransformerに 'validate = False'を追加する必要があります。また、ターゲット変数を削除し、データフレームで動作するように列選択関数を変更する必要がありましたが、私はあなたのデータセットでテストしました。上記のすべての編集で更新しました – elphz