2017-09-19 18 views
0

私はword2vecのpython gensimパッケージを使用しています。python tokenizer word2vecのモデルに2ワードのフレーズ

私はトークン化された単語と2単語のフレーズでモデルを実行したいと思います。私は10,000〜ドキュメントがあり、nltk Regextoknizerを使ってすべてのドキュメントから単一の単語トークンを取得しました。 2語句を取得するには、どのようにして文書をトークナイザ化できますか?例えば

文書: "私は緑のリンゴを持っている"

と2単語フレーズ:{I_have}、{green_apple}、...など

答えて

1

1オプションがありますnltkngramsを使用し、このようにn = 2に設定してタプルのリストを取得します。

from nltk import ngrams 
n = 2 
bigram_list = list(ngrams(document.split(), n)) 
関連する問題