2017-04-18 6 views
0

私はwiki(韓国語)で事前に訓練された「ファーストテキストモデル」がうまくいかない理由を知りたいと思っています! :(2つのセンテンス間でpretrained fasttexモデルのcosine_similarityが高いのはなぜなのですか?

モデル= fasttext.load_model( "./ fasttext/wiki.ko.bin ")

model.cosine_similarity(" 테스트테스트이건테스트문장"、 "지금아무관계없는글정말로정말로") (英語で)

model.cosine_similarity(「本当に今はないすべての相対ドキュメント」、「テストテストは、これはテスト文である」)

150 .... ?? これらの文ではありませんまったく意味がありませんので、私は余弦しかし、それは0.997383でした...

孤独な文章とファストテキストを比較することは不可能ですか? これはdoc2vecを使用する唯一の方法ですか?

答えて

0

「fasttext」コードパッケージはどちらを使用していますか?

確かにcosine_similarity()は生の文字列を取り、各例の単語を自動的にトークン化/結合して文レベルの類似性を持たせるように設計されていますか? (その能力は、その文書や実例で示唆されているのでしょうか、それともトークン化された言葉のリストが期待されていますか?)

関連する問題