英語以外の言語でWord2Vecを実装していますか？

ウルドゥー語、タミル語などの英語アルファベットに基づいていない言語でWord2Vecモデルを実装することは可能ですか？もしそうなら、誰かが私に経路を提案することができます。英語以外の言語でWord2Vecを実装していますか？

2017-03-08 Djokester

と辞書（単語、id）を作成し、numberized形式に変換します。その後、数値化されたファイルをword2vecに渡します。あなたは行くように設定されます。クエリ時間にちょうどあなたの入力を取って、辞書を使用し、それを訓練されたモデルに渡す前にnumberizedバージョンに変換してください！ – user3639557

ご使用の言語用のトークナイザ（ワードスプリッタ）を用意しておかなければならないと思いますが、データが小さくて変形された単語フォームを基本フォーム表現で置き換えたい場合は、。

はここでPythonでgensimでモデルを訓練するための基本的な例です：ちょうどデータの前処理

from gensim import models 

training_corpus = "corpus.txt" 

with open(training_corpus,'r') as f: 
    plain_text = f.read() 

sentences = plain_text.split("\n") # Assume one sentence per line 
tokenized = [] 

for sentence in sentences: 
    # White-space-based word splitting, replace with a better tokenizer 
    tokens = sentence.strip().lower().split(" ") 
    tokenized.append(tokens) 

# Train your model, see gensim documentation for parameters 
model = models.Word2Vec(tokenized, min_count=3, size=50)

出典

2017-03-08 18:11:35 azeldes

を試してみてください。 – Djokester

英語以外の言語でWord2Vecを実装していますか？

答えて

関連する問題