私はkmeansのクラスタリングメソッドの新機能です。私はPythonで1次元の文字列配列データをクラスタリングしようとします。Pythonのkmeansの文字列
expertise=['
Bioactive Surfaces and Scaffolds for Regenerative Medicine',
'Drug/gene delivery science',
'RNA nanomedicine', 'Immuno/bio/nano-engineering', 'Biomaterials', 'Nanomedicine',
'Biobased Chemicals and Polymers',
'Membranes Science & Technology',
'Modeling of Infectious and Lifestyle-related Diseases']
km = KMeans(n_clusters=2)
km.fit(expertise)
と私はValueErrorをを得る:
以下は私のデータで浮くように文字列を変換できませんでした:
ので、私は変更することができますどのような方法を文字列データに関数kmeansを適用する方法を疑問に思うかあります2次元へのデータ?
文字列のクラスタとはどういう意味ですか? – polku
私はkmeans上で座標データを試してみて、それは完全に動作します。だから私はストリングデータの仕事かどうかは不思議です – AAron
これはまさに「文字列データ」ではなく文字列です。ハミング距離などを使ってデータを取得する方法を見つけたら、「弦のクラスタ」を作成することは可能ですが、Sklearnはそれを行うことはできません。NLTKにはそういうものがあるかもしれません。 – polku