0
私はテキストデータを扱うことでかなり新しいです。kがいつtf idfに収束するかを理解するには?
私は約30万のユニークな製品名のデータフレームを持っており、kを使用しようとしているのは、同様の名前を一緒にクラスタ化することを意味します。私はsklearnのtfidfvectorizerを使って名前をベクトル化し、tf-idf行列に変換しました。
私はそれを疎な行列に変換した後、kは5-10のクラスターを意味しますが、収束しているかどうかはわかりません。
これをどのように把握できますか?
メモリーが正しいと収束しない場合は、警告が出力されます – pyCthon