2017-07-12 5 views
0

プログラミングの初心者として、私はScikitで学ぶ機械学習実験によるテキストの分類にいくつか問題があります。私は10倍のクロスバリデーションを使用しているため、列車とテストデータの分割はありません。Sklearn:特徴抽出タイプのエラー

私の問題は、特徴抽出モジュールから始まります。これはエラーとコードです:

TypeError: float() argument must be a string or a number, not 'dict'

インスタンスがドキュメントごとの辞書と、特徴ベクトル辞書のリストです:

vec = DictVectorizer() 
X = vec.fit_transform(instances).toarray() 

最後の行には、次のエラーが発生します。インスタンスリストの最初の例(最初のドキュメントの辞書の一部を見ることができます)。

instances一部の機能は、機能ベクトル辞書にネストされた辞書です。私はそれを不必要にする方法を知らないが、おそらくこれは問題ですか?

+1

はいネストされた辞書が問題です。特定の値にエンコードする方法や、それらをラップして他のキー値と同じレベルにする方法を見つける必要があります。 – mkaran

答えて

1

はい、問題はネストされた辞書の特徴ベクトルです。それらを分割して独立した機能にする。

関連する問題