データを視覚化するための次元削減(DR)技法を実行したいと思います。 Barnes-hut tsneを使用する予定ですが、サンプルアプリケーションには、user guideに従った通常のマトリックス形式のデータがあるため、TSNEへの入力方法はわかりません。私は5000の異なる値を持つ約1200万のレコードを持っており、私はそれらをメインメモリに格納することができません。ディメンションリダクション(DR)を実行して、2次元散布図でこれらの異なる値を視覚化したいと考えています。私は隣接リスト形式のデータを持っています(あまりにも希薄です)。スパース行列の次元削減(TSNE/PCA)
2 3 10
4 6
7
7 9 10
2
5 6
これらは私の最初の6を記録することになっています
は、私はレコードを以下している、としましょう。この場合、私には10の異なる値しかありません。そして、上記の行列(表)は、1番目のレコードが2,3の列を1とし、他の列が0(隣接リスト)であることを示しています。
これらの異なる値は、文書(記録)中に存在する単語(ラベル)にマッピングされます。
このようなデータを使用して高速TSNEを実行するにはどうすればよいですか。 TSNEが要求する互換フォーマットに変換する方法は?どの言語を好むべきですか?
私はPythonやMATLABを使用することを好むが、何か他のものも結構です。あなたの提案を教えてください。
P.S.私は本当に高いコンピューティングマシンは、タスクを行う必要があります。