2016-10-23 5 views
-3

例えば、私は入力としていくつかの意味的意味を持つ文章を入力しています。出力として、最も近い(余弦距離の)単語(たいていは単一単語)のリストを取得します。word2vecを使用してテキスト内で最も意味のある単語を見つけるにはどうすればよいですか?

しかし、私の文がどのクラスターに属しているのかを理解し、そこから各単語がどのくらい離れているのかを計算したいと思います。そして、意味のない言葉を文から排除する。

例:

「私はピザを購入したい」;

"ピザ":0.99123

"買う":0.7834

を "欲しい":0.1443

ような要件は、任意のCコーディングなしで、箱から出して実現することができますか?

多分私は余弦距離式を計算する必要がありますか?

ありがとうございました!

答えて

1

word2vecの代わりにトピックモデリングが必要なようです。 Word2vecはローカル情報をキャプチャするために使用されますが、単語や文を分類またはクラスタリングするために直接使用することはお勧めできません。

他の1つの側面は、意味のない単語について言及しているので、ストップワードの削除が可能です。ところで、彼らは意味がありません、彼らは実際にはどのトピックに合わせていません。だから、あなたはそれらを意味のないものと考えています。

私はあなたがLDAトピックモデリングアプローチを使用すべきだと思っています。LDAの実装がたくさんあるので何も実装する必要はありません。

関連する問題