私はスパース行列に変換したデータ(テキスト)の大きなコーパスを持っています(スパース行列を格納するためにscipy.sparse.csr.csr_matrix
を使用しています)。私は、すべての文書について、上位n個の最近接の一致を見つけたいと思います。私はPython scikit-learn
ライブラリではNearestNeighbor
ルーティン(正確にはsklearn.neighbors.NearestNeighbor
)が私の問題を解決することを期待していましたが、KD trees
やBall trees
などのスペースパーティショニングデータ構造を使用する効率的なアルゴリズムは疎行列では機能しません。 brute-forceアルゴリズムのみが、疎な行列で動作します(これは、私が大規模なコーパスを扱っているので、私の場合は実行不可能です)。スパース行列の効率的な最近傍検索
スパース行列(Pythonまたは他の言語)の最近傍探索の効率的な実装はありますか?
ありがとうございました。
SVD出力でボールツリーがうまく動作しますか?通常、テキストデータの場合、SVDは100-200次元を維持したいと考えています。 –