2017-01-27 1 views
0

word2vecアルゴリズムの大きなファンです。 Googleの研究チームが作成したベクトルバイナリファイルを入手しました。私は以前にGoogleよりもはるかに小さなデータセットを作成していました。word2vecをインポートして作業するGoogleNews-vectors-negative300.bin.gzをR

私は私がいること、およびtxtファイルにビンから変換(githubの上で見つかった)rword2vecを使用して抽出していたR.

にファイルをGoogleニュース・ベクトル・negative300.bin.gzをインポートすることはできませんよ。 パッケージ内には検索機能がありますが、それはスローです。なぜ私が今の構造で、R内のファイルをインポートし、可能な場合、データフレームに変換しようとしていますされ

name | vec1 | ... | vec300 

私は(名前を取得することができませんでした)、またreadBinに建設しようとしましたreadline with txt(完了していない)またはreadrパッケージとread_lines(12Mbビッグベクトルのみ)

正しい方向に私を指摘できますか?

答えて

0

私はついに道を見つけました。

パッケージrword2vecを使用すると、bin_to_txt関数またはパッケージに含まれているフレームワークのいずれかを使用できます。詳細は、付属のビネットをご覧ください。

library(rword2vec) 
dist=distance(file_name = "GoogleNews-vectors-negative300.bin",search_word = "king",num = 10) 
dist 
  word    dist 
1   kings 0.713804960250854 
2   queen 0.651095926761627 
3  monarch 0.641319692134857 
4 crown_prince 0.620422065258026 
5  prince 0.615999639034271 
6  sultan 0.586482524871826 
7   ruler 0.579756796360016 
8  princes 0.564655303955078 
9 Prince_Paras 0.543294668197632 
10  throne 0.542210519313812 
関連する問題