は、私はGoogleのword2vecで重複した単語を見つけようとしています、例えば、word2vecに、2つのワードの埋め込みは、「こんにちは」と「こんにちは」のためにそこにあります。ここで私のコードですが、単純ですが効率的ではありません。事前に訓練されたGoogleのword2vec 3万語を持っているようリストを効率的に反復するには?
def load_w2v():
openfile = '../Pretrained/word2vec/GoogleNews-vectors-negative300.bin'
model = gensim.models.KeyedVectors.load_word2vec_format(openfile, binary=True)
return model.vocab.keys()
if __name__ == '__main__':
pre_trained_words = load_w2v()
ready_have = []
duplicated_words = []
for word in pre_trained_words:
if word.lower() not in ready_have:
ready_have.append(word.lower())
else:
duplicated_words.append(word)
continue
しかし、私のコンピュータは18時間runingてなく終了したので、私は思っていたされた重複した単語を取得するための、いくつかeffiencient方法はありますか?
あなたはそれが効率の問題だ確信し、または多分あなたは無限ループに陥るされています。あなたはプロセスをデバッグしましたか? –
重複を定義してください。 "こんにちは"と "こんにちは"は重複していますが、重複して2回以上出現する "こんにちは"ですか? – VPfB