2011-12-06 8 views
1

入力のためにnumpy/scipy配列が必要なscikit.learnを使用しようとしています。 nltkで生成されるフィーチャセットは、ユニグラムとバイグラムの周波数で構成されます。私はそれを手動で行うことができますが、それは多くの努力になります。だから私が見落とした解決策があるのだろうかと思っています。nltkのフィーチャセットをscipy.sparse配列に変換する方法はありますか?

+0

フィーチャ値を受け取り、単純にnumpy配列に入れることができないのはなぜですか? – cyborg

答えて

0

私は知りませんが、scikit-learnはn -gramそのものをカウントできることに注意してください。仮定すると、単語レベルN -grams:

filesは、文字列やファイルのようなオブジェクトのリストがある
from sklearn.feature_extraction.text import CountVectorizer, WordNGramAnalyzer 
v = CountVectorizer(analyzer=WordNGramAnalyzer(min_n=1, max_n=2)) 
X = v.fit_transform(files) 

。この後、Xは生の頻度カウントのscipy.sparse行列です。ヤコブ・パーキンスがまさにそれここにいscikit学習分類子を使用してトレーニングNLTK分類のためのAAブリッジをした

関連する問題