Pythonでは、データセットXがあり、行がサンプルの異なる要素であり、列がサンプルの異なるフィーチャである場合、私は通常、次のように相関行列を計算します(ゼロ)意味:巨大なデータセットとの相関行列 - Python
import numpy as np
np.transpose(X).dot(X)/row
は今、私は10のmilion行と列の1 milionを持っているデータセットXを持っている、と私はその相関行列を計算しようとすると、コンピュータがブロックされたままになります。 forループを実行する代わりに、データセットが小さくても非常に遅いため、実行できないように見えます。
どのように私はそのようなデータ量を管理するのですか?
100万列?どのような種類のデータに100万列*が必要ですか?このタイプのデータセットは他の場所でも問題を引き起こす可能性があるため、問題を再考することをお勧めします。 – Evert
@Evert Natual言語処理の問題のデータセットです。行はドキュメントであり、列はブール値です。列iは、辞書内の位置がドキュメント内にあるかどうかを示します。 –
_ "私はそのようなデータ量をどうやって管理していますか?"その部分集合から始まり、それを使って気分を盛り上げましょう。どのアルゴリズムが最も効果的で、どの結果が重要であり、無視できるのか、というデータ構造...後でもっと知識があれば、どれだけのデータがあなたがそれをどのように処理しようとしているかを示します。 – gboffi