0
私はword2vecのpython gensimパッケージを使用しています。python tokenizer word2vecのモデルに2ワードのフレーズ
私はトークン化された単語と2単語のフレーズでモデルを実行したいと思います。私は10,000〜ドキュメントがあり、nltk Regextoknizerを使ってすべてのドキュメントから単一の単語トークンを取得しました。 2語句を取得するには、どのようにして文書をトークナイザ化できますか?例えば
:
文書: "私は緑のリンゴを持っている"
と2単語フレーズ:{I_have}、{green_apple}、...など