2017-03-08 24 views
0

ウルドゥー語、タミル語などの英語アルファベットに基づいていない言語でWord2Vecモデルを実装することは可能ですか?もしそうなら、誰かが私に経路を提案することができます。英語以外の言語でWord2Vecを実装していますか?

+0

と辞書(単語、id)を作成し、numberized形式に変換します。その後、数値化されたファイルをword2vecに渡します。あなたは行くように設定されます。クエリ時間にちょうどあなたの入力を取って、辞書を使用し、それを訓練されたモデルに渡す前にnumberizedバージョンに変換してください! – user3639557

答えて

0

ご使用の言語用のトークナイザ(ワードスプリッタ)を用意しておかなければならないと思いますが、データが小さくて変形された単語フォームを基本フォーム表現で置き換えたい場合は、 。

はここでPythonでgensimでモデルを訓練するための基本的な例です:ちょうどデータの前処理

from gensim import models 

training_corpus = "corpus.txt" 

with open(training_corpus,'r') as f: 
    plain_text = f.read() 

sentences = plain_text.split("\n") # Assume one sentence per line 
tokenized = [] 

for sentence in sentences: 
    # White-space-based word splitting, replace with a better tokenizer 
    tokens = sentence.strip().lower().split(" ") 
    tokenized.append(tokens) 

# Train your model, see gensim documentation for parameters 
model = models.Word2Vec(tokenized, min_count=3, size=50) 
+0

を試してみてください。 – Djokester

関連する問題