0
私は2つの異なるデータフレームdf1とdf2の会社名に一致させようとしています。私はdf1のcompany1とdf2のcompany2の2つの列にtf-idfとcosineの類似性を実装しようとしています。tf-idfで互換性のない行列の形状を処理します
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
v = TfidfVectorizer()
tfidf_matrix1 = v.fit_transform(df1['company1'])
tfidf_matrix2 = v.fit_transform(df2['company2'])
cosine_similarity(tfidf_matrix2, tfidf_matrix1)
これは私にエラーを与える:
ValueError: Incompatible dimension for X and Y matrices: X.shape[1]
== 31089 while Y.shape[1] == 46844
これはおそらく理由:
tfidf_matrix1.shape
は出力として(78684、46844)を私に与えます。そして -
tiff_matrix2.shape
は出力として私に(39462,31089)を与える。このエラーを修正するにはどうすればよいですか?
本当に間違っていますか?行列の形状が同じであるかどうかそれらが同じ形をしていると思わないなら、どのようにして問題を「修正」したいですか? – ASGM
私はtf-idfを新しくしました。私は一致する会社を見つけることができるように、それぞれの会社名の間にコサインの類似点を見つけたいと思います。私の主な目標は、一致する企業を見つけることです。私はこのエラーのためにさらに進める方法を知らない。 – ComplexData