nltkのフィーチャセットをscipy.sparse配列に変換する方法はありますか？

入力のためにnumpy/scipy配列が必要なscikit.learnを使用しようとしています。 nltkで生成されるフィーチャセットは、ユニグラムとバイグラムの周波数で構成されます。私はそれを手動で行うことができますが、それは多くの努力になります。だから私が見落とした解決策があるのだろうかと思っています。nltkのフィーチャセットをscipy.sparse配列に変換する方法はありますか？

出典

2011-12-06 Karthick

フィーチャ値を受け取り、単純にnumpy配列に入れることができないのはなぜですか？ – cyborg

私は知りませんが、scikit-learnはn -gramそのものをカウントできることに注意してください。仮定すると、単語レベルN -grams：

filesは、文字列やファイルのようなオブジェクトのリストがある

from sklearn.feature_extraction.text import CountVectorizer, WordNGramAnalyzer 
v = CountVectorizer(analyzer=WordNGramAnalyzer(min_n=1, max_n=2)) 
X = v.fit_transform(files)

。この後、Xは生の頻度カウントのscipy.sparse行列です。ヤコブ・パーキンスがまさにそれここにいscikit学習分類子を使用してトレーニングNLTK分類のためのAAブリッジをした

出典

2011-12-06 14:05:10

はソースです：

https://github.com/japerk/nltk-trainer/blob/master/nltk_trainer/classification/sci.py

バージョンを使用している場合、パッケージのインポートラインが更新されるべきである0.9+ 。

出典

2011-12-07 08:26:36 ogrisel

nltkのフィーチャセットをscipy.sparse配列に変換する方法はありますか？

答えて

関連する問題