2017-03-02 3 views
0

私は推薦エンジンに取り組んでいます。私が直面している1つの問題は、アイテムの類似性マトリックスが巨大であることです。アイテム間コラボレーティブフィルタリング、類似性マトリックスの管理方法

類似度マトリックスを20,000アイテム計算し、バイナリファイルを保存しました。このバイナリファイルはほぼ1GBに調整されていました。私はそれが大きすぎると思う。

多くのアイテムがある場合、類似性マトリックスを処理するにはどうすればよいですか?

+0

さらに詳しい情報を提供できますか?ファイルの内容は何ですか?あなたのマトリックスはどのように見えますか? –

答えて

1

実際、類似行列は、どのようにオブジェクトが他のオブジェクトに似ているかについてです。各行はオブジェクト(行ID)の隣人で構成されますが、すべての隣接ノードを格納する必要はなく、たとえば20個の隣接ノードしか格納しません。 lil_matrixを使用してください: from scipy.sparse import lil_matrix

+0

私は後で、類似行列をまったく保存する必要はなく、推薦するときに計算するだけであることに気付きました。計算は、実際には行列全体のごく一部を計算する必要があるため、思ったほど遅くはありません。 – arslan

関連する問題