2017-10-31 15 views
0

"SIF Embeddings"を適用してGoogleニュースベクターを使用して、 "男の子はサッカーをしています"と "子供はサッカーをしています"のような2つの文章の類似性を得ることができます。カスタムWord2Vecを使用して、技術的な質問間の意味的類似性を見つけることができますか?

私のような技術的なもの2つの文の類似取得したいと思い、「抽象クラスは何を?」 "クラスとは何ですか?"

類似性を得るためにGoogleニュースのベクターを使用しましたが、うまく機能しませんでした。

トレーニングデータの仕組みを知りたいですか?

+0

あなたは最小限の作業例を与える必要があり、そうでない場合は、一般的な質問のこのタイプがあります理論的ではなく理論的に適用されるコンテキストでもっと適切です。https://meta.stackexchange.com/questions/130524/which-stack-exchange-website-for-machine-learning-and-computational-algorithms – jonnybazookatone

+0

質問を編集しました。ビット。あなたはそれを調べていただけますか? –

+0

https://stackoverflow.com/help/mcve – jonnybazookatone

答えて

1

Word2Vecは類似した単語で類似する傾向のある単語のベクトルを生成するアルゴリズムです。それは自分で文章をしません。

あなたは多かれ少なかれ、以下のオプションがあります

  • は、文ベクトル
  • の作成には、2つの文

内の単語ベクトルの類似性を比較文ベクトルを作成

あなた可能性文章、段落または文書ベクトルを作成する。それにはさまざまなアプローチがあります。たとえば、個々の単語のword2vecを組み合わせることができます。あなたがgensimのdoc2vecのために行くことができるソリューションがほしいなら:https://radimrehurek.com/gensim/models/doc2vec.html

それ以外のすべての単語ベクトル(固定長の)を連結するような方法があります。

同様の質問: How to calculate the sentence similarity using word2vec model of gensim with python

は、2つの文

このようなアプローチの1つの中に単語ベクトルの類似性を比較発動機の距離です。Pairwise Earth Mover Distance across all documents (word2vec representations)

これは良いが、高価なアプローチのように思えます。

更新:あなたは、あなたが(代わりにword2vecの)「SIF、組み込み環境」を使用していることを言及するので、あなたの質問を更新しました:https://openreview.net/forum?id=SyK00v5xx

+0

私の問題は、文章ベクトルを得るためにword2vecを使用する方法ではなく、技術的な文章を扱う方法です。 –

+0

試しましたか?技術的な文章が他の文章とどのように大きく異なるのか分かりません。右のコーパスでそれを訓練する必要があるかもしれません。 – de1

+0

私はそれがうまくいかない技術的な質問を試みました。私はたくさんのoovトークンを参照してください –

関連する問題