word2vec

    1

    1答えて

    私は類似の文章を見つけるためにword2vec/doc2vecを適用しようとしています。まず単語の類似性についてword2vecを考えてみましょう。私が理解しているところでは、CBOWは文脈の中で最も適切な単語を見つけるのに使うことができますが、Skip-gramはある単語の文脈を見つけるために使われるので、どちらの場合でも頻繁に共起する単語が得られます。しかし、それと似た言葉を見つけるにはどうす

    1

    1答えて

    私はtensorflowでword2vecモデルを訓練しました。しかし、セッションを保存するときには、model.ckpt.data/.index/.meta個のファイルしか出力されませんでした。 私は、最も近い単語を検索する際にKNNメソッドを実装することを考えていました。私はgensimを使った答えを見ましたが、まずテンソルフローword2vecモデルを.txtに保存することはできますか?

    0

    1答えて

    私はtwitterデータベースで感情分析を行うためにコードをオンラインにしました。私はそれを実行しようとしたが、それは印刷のための最初のエラーで私に与えた。これは、新しいバージョンのpythonが印刷を行う方法を変更したことを理解した。誰かがPythonで作業していて、私が間違っている場所を見るためにワシの目を持っていると、配列にデータが埋め込まれていないことを示すエラーが発生しています。 imp

    0

    1答えて

    私はword2vecと優れたチュートリアルを使用してdoc2vec、hereとhereを始めるしようとすると、コードサンプルを使用しようとしています。私はline_clean()の句読点、ストップワードなどを削除する方法を追加しました。 しかし、私はトレーニングの反復で呼ばれるline_clean()メソッドに問題があります。私はグローバルメソッドの呼び出しがそれを台無しにしていることを理解してい

    0

    1答えて

    このコードは、word2vecを生成し、これを使用してナイーブなベイズ分類子を訓練します。 私はword2vecを生成して類似性関数を正常に使用することができました。次のステップとして、私はna2vecを使ってnaive bayes分類子を訓練します。現在、テストとトレーニングでデータをスリットしようとしているときに、コードにエラーがあります。 word2vecモデルを配列に変換してトレーニングデ

    0

    1答えて

    は、私はGoogleのword2vecで重複した単語を見つけようとしています、例えば、word2vecに、2つのワードの埋め込みは、「こんにちは」と「こんにちは」のためにそこにあります。ここで私のコードですが、単純ですが効率的ではありません。事前に訓練されたGoogleのword2vec 3万語を持っているよう def load_w2v(): openfile = '../Pretrained/

    0

    1答えて

    私はthis questionを見つけました。これは、文の順序がおそらく重要であるという証拠を提供します(ただし、効果は異なるランダム初期化の結果でもあります)。 は、私は私のプロジェクトのためReddit comment dumpsを処理したいのですが、JSONから抽出された文字列がソートされていないことが、非常に異なるsubredditsと話題に属しますので、私は台無しコンテキストにしたくない

    0

    1答えて

    私は論文を読んでいます。 単語とフレーズの分散表現とその構成性。 これは非常に興味深いですが、私は本当にパラメータ '否定'と最終的なパフォーマンスの関係が不思議です。私は個人的には、最終的なパフォーマンスがある値まで負の増加として良くなるかもしれないと思います。比較のために使用しているネガティブサンプルが多いほど、より良い結果が理論的に得られるはずです。もちろん、パフォーマンスはいくつかの点まで

    2

    1答えて

    私はword2vec類似性辞書を構築しようとしています。私は1つの辞書を構築することができましたが、類似点は正しく配置されていません。私のコードで何かが欠けていますか? 入力サンプル・データ・テキスト TAK PO LUN UNIT 3 15/F WAYSON COMMERCIAL G 28 CONNAUGHT RD WEST SHEUNG WAN - EDDY SUSANTO YAHYA RO

    0

    1答えて

    私はdoc2vecモデルを訓練した後、別のモジュールの文書ベクトルを再利用したいと思います。 とのdoc-vectorsを辞書として保存すると、のように保存されます。 私はちょうどどれがメモリ効率が良いか、どれがターゲットモジュールでより高速に読み込まれるのだろうか?