2つの文字列間の類似性を計算するアプリケーションを作成しようとしています。 文字列が長くありません。 3最高の文章。 私はいくつかの研究を行いました。単語の文字列の類似性TF-IDF単語またはWord2vecの袋
まず一回の使用袋は:単語をカウントし、2つの産ベクトルを(コサイン類似度)
第使用TF-IDFを比較し、生成ベクトルを比較します。
第3は、word2vecと比較ベクトルを使用しています。質問のための今
。
パフォーマンスは、word2vecのパフォーマンスが優れていますが、短い文章の場合はTF-IDFの方が優れていますか?
word2vecモデルのトレーニングにはどのような方法がありますか?私は大量のテキスト(例えばウィキペディアのダンプ)を使用するか、比較される文章だけを使って訓練するべきですか?
word2vecから文の類似度を取得する方法。それぞれの文章の単語を平均するか、より良い解決策がありますか?
ここにいくつかのものがあります。それはプログラミングの質問ではありませんので、ここでそれを尋ねるべきではありません、それはトピックとしてフラグが立てられます。 パフォーマンスの比較についてわかりません。しかし、word2vecに関しては、あなたの単語の埋め込み行列として使うことができます。そして、反復的なネットでその文の表現を作ります。これはあなたの問題のオーバーシュートかもしれませんが、これらのモデルは、あなたがしたいように、シーケンスの表現を構築するために作られています。しかし、表現を学ぶには列車が必要です。そうでなければ、監督されていない方法でこのモデルを訓練することができますか? – ted
私はニューラルネットワークにうまくいかず、word2vecと繰り返しのネットを使って文の表現を生成する例へのリンクを提供できますか?トレーニングでは、どれくらいのデータを持っているべきかを設定します。私は今使用する大きなデータセットを持っていません。監督されていない方法でそれを行う方法。ありがとう – LonsomeHell