2016-09-08 15 views
0

私はすでに、私はパンダのデータフレームに読み込むCSVファイル内の文書データを、処理しています入力データ型

+----------+------+------------+ 
| document | term | count  | 
+----------+------+------------+ 
| 1  | 126 | 1   | 
| 1  | 80 | 1   | 
| 1  | 1221 | 2   | 
| 2  | 2332 | 1   | 

だからDOCUMENT_ID、用語、及び用語頻度で構成されています。

私は、元の文書が、ちょうどこの処理されたデータを持っていない、と私はsklearnでSVDを適用したいが、私は期待していSVD fit_transform()、このデータフレームを準備する方法を見つけ出すことはできません。

X:{アレイ状、疎行列}、形状(n_samples、n_features)

答えて

1

書式をLIBSVM、このCSVに変換することができ:

<label> <index1>:<value1> <index2>:<value2> ... 
. 
. 
. 

だから、あなたの例のデータは次のようになります。、その後、sklearn.datasets.load_svmlight_file

from sklearn.datasets import load_svmlight_file 
X, y = load_svmlight_file('your_libsvm_format_file.libsvm') 

を使用して

from sklearn.decomposition import SVD 
svd = SVD() 
X_transformed = svd.fit_transform(X) 
をこのファイルを読み取るその後

0 80:1 126:1 1221:2 
0 2332:1 

関連する問題