Pythonの2つのテキスト文書間の類似度

-5

1から4までの4つの文書が用意されています。それぞれ1文のテキストが1つあります。 TF-IDFスコアに従って計算されるように、最初の文書に最も類似する文書の識別子を決定する。Pythonの2つのテキスト文書間の類似度

My name is Ankit, 
Ankit name is very famous, 
Ankit like his name 
India has a lot of beautiful cities

整数（2または3または4のいずれか）を出力し、先頭または末尾にはスペースを入れません。

出典

2017-04-26 ankit narang

あなたのコードを表示してください。 –

import numpy as np 

from sklearn.feature_extraction.text import TfidfVectorizer 

vect = TfidfVectorizer(min_df=1) 

tfidf = vect.fit_transform(["My name is Ankit", 
          "Ankit name is very famous", 
          "Ankit like his name", 
          "India has a lot of beautiful cities"]) 

print ((tfidf * tfidf.T).A)

出典

2017-04-26 10:37:06

Pythonの2つのテキスト文書間の類似度

答えて

関連する問題