-2

これらのリンクlink1link2のコードに基づいてプログラムを書くと、aの意味的類似性が自動的に計算されます。連続した文章とb。センテンスは、1つの介在フレーズ、ドキュメント全体(1000文)で区切ります。テキスト内の文章間の意味的な一貫性の発見

提供されたコードはすでにトークン化されており、意味的類似性を見つけることができますが、テキスト全体(「a、b」)にわたる連続した「介入」文の意味の類似性を計算し私は何度も何度も同じことをしたくありません。

+0

あなたは[((http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf)[word2vec]を見てきましたor this](https://blog.acolyer.org/2016/04/21/the-amazing-power-of-word-vectors/))はまったくですか?私は過去に似たようなもののPython実装を使用しました。 – Fruitspunchsamurai

+0

こんにちは、これらの記事は主に私が理解している理論です。アイデアをコードに貼り付けてプロセスを自動化することに問題があります。 –

+1

あなたはこれまでに何を試しましたか?ファイルを行単位で読み込み、次の行/隣接するフレーズと比較するプログラムがあると思いますか? – Fruitspunchsamurai

答えて

0

次のコードは、あなたがやりたいあなたは、出力をフォーマットする方法に応じてそれを調整する必要があります。

with open("sentence_file_name", "r") as sentence_file: 
    while x and y: 
    x = sentence_file.readline() 
    y = sentence_file.readline() 
    similarity(x, y, boolean) #boolean set to false or true depending on what you want 
    x = y 
    y = sentence_file.readline() 
+0

大変申し訳ありませんが、リンクに記載されているコードのどこにこのコードを実装しますか? –

+0

1,245行目のすべてをコピー/フォークし、その上に上記のコードを追加します。 sentence_file_nameを、文章ファイルの相対パスに置き換えてください。これは技術的にはこれを行うきれいな方法ではありませんが、おそらく最も単純な方法です。 – Fruitspunchsamurai

関連する問題