Numpyドットプロダクト小行列用MemoryError

推薦システムの共同フィルタリング手法として、特異値分解（SVD）を実装したいと考えました。私はこれを持っていますsparse_matrix、項目を表すユーザーと列を表す行と、ユーザー項目評価としての各マトリックス項目。Numpyドットプロダクト小行列用MemoryError

>>> type(sparse_matrix) 
scipy.sparse.csr.csr_matrix

まず私はSVDを使用してこの行列を因数分解：

from scipy.sparse.linalg import svds 
u, s, vt = svds(sparse_matrix.asfptype(), k = 2) 
s_diag = np.diag(s)

それから私は、uの内積を取ることによって予測を行うs_diag、およびvt：

>>> tmp = np.dot(u, s_diag) 
>>> pred = np.dot(tmp, vt) 
Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
MemoryError

私が得ましたMemoryError。

>>> tmp.shape 
(686556, 2) 
>>> tmp.nbytes 
10984896 
>>> vt.shape 
(2, 85539) 
>>> vt.nbytes 
1368624

tmpが11メガバイトの周りで、vtは1.4メガバイトであることを意味します。しかし、私はtmpとvtのサイズとメモリの使用状況を確認しました。しかし、np.dot(tmp, vt)の時点で私のシステムは50GB以上の空きメモリを持っており、この計算には十分であるようです。では、なぜ私はこのMemoryErrorを取得していますか？私のコードに何か問題がありますか？または、np.dotはメモリ使用量が非常に高価ですか？

出典

2016-10-17 Ida

を使用します。

はまばらなドキュメント（https://docs.scipy.org/doc/scipy/reference/sparse.html）

試して確認してください。 'tmp'もあります。あなたは小さな2次元で 'tmp'と' vt'を組み合わせています。したがって、 'pred'は大きな配列になります（686556、85539） – hpaulj

@hpauljあなたは' pred'が686556 * 85539 8bytes = 470GBになることを意味しますか？ – Ida

はい、そのようなもの！ – hpaulj

np.dotがスパース行列を処理できないため、このエラーが発生すると思います。

ご確認の上、行列をフルに変換してみてください。

np.dot(u.toarray(), s_diag.toarray())

または `s_diag`が密である

u.dot(s_diag)

出典

2016-10-17 09:26:55 sukhbinder

thxが返答しますが、 'u'、' vt'、 's_diag'は' numpy.ndarray'型であり、 'toarray'属性はありません – Ida

Numpyドットプロダクト小行列用MemoryError

答えて

関連する問題