python tokenizer word2vecのモデルに2ワードのフレーズ

私はword2vecのpython gensimパッケージを使用しています。python tokenizer word2vecのモデルに2ワードのフレーズ

私はトークン化された単語と2単語のフレーズでモデルを実行したいと思います。私は10,000〜ドキュメントがあり、nltk Regextoknizerを使ってすべてのドキュメントから単一の単語トークンを取得しました。 2語句を取得するには、どのようにして文書をトークナイザ化できますか？例えば

：

文書： "私は緑のリンゴを持っている"

と2単語フレーズ：{I_have}、{green_apple}、...など

2017-09-19 Dkova

1オプションがありますnltkのngramsを使用し、このようにn = 2に設定してタプルのリストを取得します。

from nltk import ngrams 
n = 2 
bigram_list = list(ngrams(document.split(), n))

2017-12-29 19:13:58

答えて