私はsklearnの余弦距離の式を使ってNxN類似行列を計算したいと思います。私の問題は、私のマトリックスが非常に大きいことです。それは約1000項目があります。私の現在のアプローチは非常に遅く、実際のスピードアップが必要です。誰も私がコードをスピードアップするのを助けることができますか?パンダの行列と距離行列をできるだけ早く
for i in similarity_matrix.columns:
for j in similarity_matrix.columns:
if i == j:
similarity_matrix.ix[i,j] = 0
else:
similarity_matrix.ix[i,j] = cosine(documents[int(i)], documents[int(j)])
ボーナスタスク:さらに、加重コサイン式を使用したいと思います。しかし、それはsklearnに実装されていないようです?本当?
あなたはscipyのダウンロード[cdist](https://docs.scipy.org/doc/scipy-0.19.0/referenceを試してみました/generated/scipy.spatial.distance.cdist.html)? – Divakar
ませおかげで私はあなたにもパンダに 'pivot_table'を使用してみてください手動 – Coozy
をチェックしません:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.pivot_table.htmlは – ysearka