word2vec

1熱

1答えて

私は類似の文章を見つけるためにword2vec/doc2vecを適用しようとしています。まず単語の類似性についてword2vecを考えてみましょう。私が理解しているところでは、CBOWは文脈の中で最も適切な単語を見つけるのに使うことができますが、Skip-gramはある単語の文脈を見つけるために使われるので、どちらの場合でも頻繁に共起する単語が得られます。しかし、それと似た言葉を見つけるにはどうす

1熱

1答えて

後でkNN出力を使うためにテンソルフローのword2vecをテキスト/バイナリファイルに保存するには？

私はtensorflowでword2vecモデルを訓練しました。しかし、セッションを保存するときには、model.ckpt.data/.index/.meta個のファイルしか出力されませんでした。私は、最も近い単語を検索する際にKNNメソッドを実装することを考えていました。私はgensimを使った答えを見ましたが、まずテンソルフローword2vecモデルを.txtに保存することはできますか？

0熱

1答えて

感情分析コード（word2vec）が私のpythonバージョン（語彙が組み込まれていない）で正しく動作していません

私はtwitterデータベースで感情分析を行うためにコードをオンラインにしました。私はそれを実行しようとしたが、それは印刷のための最初のエラーで私に与えた。これは、新しいバージョンのpythonが印刷を行う方法を変更したことを理解した。誰かがPythonで作業していて、私が間違っている場所を見るためにワシの目を持っていると、配列にデータが埋め込まれていないことを示すエラーが発生しています。 imp

0熱

1答えて

doc2vec/gensim - エポックでシャッフル文章の問題

私はword2vecと優れたチュートリアルを使用してdoc2vec、hereとhereを始めるしようとすると、コードサンプルを使用しようとしています。私はline_clean()の句読点、ストップワードなどを削除する方法を追加しました。しかし、私はトレーニングの反復で呼ばれるline_clean()メソッドに問題があります。私はグローバルメソッドの呼び出しがそれを台無しにしていることを理解してい

0熱

1答えて

word2vecを使用してクラシファイアをトレーニングするにはどうすればよいですか？

このコードは、word2vecを生成し、これを使用してナイーブなベイズ分類子を訓練します。私はword2vecを生成して類似性関数を正常に使用することができました。次のステップとして、私はna2vecを使ってnaive bayes分類子を訓練します。現在、テストとトレーニングでデータをスリットしようとしているときに、コードにエラーがあります。 word2vecモデルを配列に変換してトレーニングデ

0熱

1答えて

リストを効率的に反復するには？

は、私はGoogleのword2vecで重複した単語を見つけようとしています、例えば、word2vecに、2つのワードの埋め込みは、「こんにちは」と「こんにちは」のためにそこにあります。ここで私のコードですが、単純ですが効率的ではありません。事前に訓練されたGoogleのword2vec 3万語を持っているよう def load_w2v(): openfile = '../Pretrained/

0熱

1答えて

gensimからのword2vec実現は、文脈を調べるときに文章レベルを超えますか？

私はthis questionを見つけました。これは、文の順序がおそらく重要であるという証拠を提供します（ただし、効果は異なるランダム初期化の結果でもあります）。は、私は私のプロジェクトのためReddit comment dumpsを処理したいのですが、JSONから抽出された文字列がソートされていないことが、非常に異なるsubredditsと話題に属しますので、私は台無しコンテキストにしたくない

0熱

1答えて

悪影響がgensimでのモデルのパフォーマンスにどのように影響しますか？

私は論文を読んでいます。単語とフレーズの分散表現とその構成性。これは非常に興味深いですが、私は本当にパラメータ '否定'と最終的なパフォーマンスの関係が不思議です。私は個人的には、最終的なパフォーマンスがある値まで負の増加として良くなるかもしれないと思います。比較のために使用しているネガティブサンプルが多いほど、より良い結果が理論的に得られるはずです。もちろん、パフォーマンスはいくつかの点まで

2熱

1答えて

Word2Vecをスキップして正しく動作しない

私はword2vec類似性辞書を構築しようとしています。私は1つの辞書を構築することができましたが、類似点は正しく配置されていません。私のコードで何かが欠けていますか？入力サンプル・データ・テキスト TAK PO LUN UNIT 3 15/F WAYSON COMMERCIAL G 28 CONNAUGHT RD WEST SHEUNG WAN - EDDY SUSANTO YAHYA RO

0熱

1答えて

どの方法でdoc2vecモデルをより効率的に回復できますか？

私はdoc2vecモデルを訓練した後、別のモジュールの文書ベクトルを再利用したいと思います。とのdoc-vectorsを辞書として保存すると、のように保存されます。私はちょうどどれがメモリ効率が良いか、どれがターゲットモジュールでより高速に読み込まれるのだろうか？