word2vecアルゴリズムの大きなファンです。 Googleの研究チームが作成したベクトルバイナリファイルを入手しました。私は以前にGoogleよりもはるかに小さなデータセットを作成していました。word2vecをインポートして作業するGoogleNews-vectors-negative300.bin.gzをR
私は私がいること、およびtxtファイルにビンから変換(githubの上で見つかった)rword2vecを使用して抽出していたR.
にファイルをGoogleニュース・ベクトル・negative300.bin.gzをインポートすることはできませんよ。 パッケージ内には検索機能がありますが、それはスローです。なぜ私が今の構造で、R内のファイルをインポートし、可能な場合、データフレームに変換しようとしていますされ
:
name | vec1 | ... | vec300
私は(名前を取得することができませんでした)、またreadBinに建設しようとしましたreadline with txt(完了していない)またはreadrパッケージとread_lines(12Mbビッグベクトルのみ)
正しい方向に私を指摘できますか?