word2vecをインポートして作業するGoogleNews-vectors-negative300.bin.gzをR

word2vecアルゴリズムの大きなファンです。 Googleの研究チームが作成したベクトルバイナリファイルを入手しました。私は以前にGoogleよりもはるかに小さなデータセットを作成していました。word2vecをインポートして作業するGoogleNews-vectors-negative300.bin.gzをR

私は私がいること、およびtxtファイルにビンから変換（githubの上で見つかった）rword2vecを使用して抽出していたR.

にファイルをGoogleニュース・ベクトル・negative300.bin.gzをインポートすることはできませんよ。パッケージ内には検索機能がありますが、それはスローです。なぜ私が今の構造で、R内のファイルをインポートし、可能な場合、データフレームに変換しようとしていますされ

：

name | vec1 | ... | vec300

私は（名前を取得することができませんでした）、またreadBinに建設しようとしましたreadline with txt（完了していない）またはreadrパッケージとread_lines（12Mbビッグベクトルのみ）

正しい方向に私を指摘できますか？

出典

2017-01-27 johnnyheineken

私はついに道を見つけました。

パッケージrword2vecを使用すると、bin_to_txt関数またはパッケージに含まれているフレームワークのいずれかを使用できます。詳細は、付属のビネットをご覧ください。

library(rword2vec) 
dist=distance(file_name = "GoogleNews-vectors-negative300.bin",search_word = "king",num = 10) 
dist

  word    dist 
1   kings 0.713804960250854 
2   queen 0.651095926761627 
3  monarch 0.641319692134857 
4 crown_prince 0.620422065258026 
5  prince 0.615999639034271 
6  sultan 0.586482524871826 
7   ruler 0.579756796360016 
8  princes 0.564655303955078 
9 Prince_Paras 0.543294668197632 
10  throne 0.542210519313812

出典

2017-11-26 19:40:40 johnnyheineken

word2vecをインポートして作業するGoogleNews-vectors-negative300.bin.gzをR

答えて

関連する問題