2016-11-26 9 views
-1

私はpythonで次元削減を実行しようとしています。私は頻度カウントと一緒にテキストを持っています。私はそれの次元削減を行うことによってテキストの数を減らしたいです。たとえば、テキストとその頻度のファイルがある場合、どのようにしてPythonの項目数を減らすことができますか?周波数ベクトルpython内の項目の数を減らす

+0

データの差異の原因を特定し、残りを削除します。 bag-of-wordsモデルでは、分散を維持しながら冗長なデータを削除する1つの方法は、グローバルに共通の単語( 'a'、 'the' 'isなど)を削除することです。テキストに固有の単語だけを保持します。 –

答えて

0

次元を減らす方法はたくさんあります。

あなたの要件について正式ではありませんが、お勧めするのは難しいです(さらに、この質問に関する文献を参照してください)。

次元を無作為に単純に削除することができます。例えば。 minhashはこの方法で重複した文書を検索します。