2017-09-21 14 views
1

トークン間の類似度を測定しようとしています。私はデフォルトのENモデルを使用しています。類似性尺度は、単数名詞を使用する場合は期待通りに機能しますが、複数の同じ名詞を使用する場合はゼロを返します。Spacyトークンの類似度測定

nlp = spacy.load('en') 
doc = nlp('apple orange') 
doc[0].similarity(doc[1]) 

戻り0.56189166448170025

doc = nlp('apples oranges') 
doc[0].similarity(doc[1]) 

戻り

私は尺度が正しく動作するために実装する必要が任意の前処理ステップがある0.0?ありがとう。

+0

使用しているspacyのバージョンを教えてください。 –

答えて

0

私はそれが句の類似性をサポートしていないと思います。ハッキーな選択肢は、あなたのフレーズをトークン化することです。そのスコアは各トークンの類似性の平均になります。あるいは、句類似度hereを使用することもできます。

関連する問題