0
ウルドゥー語、タミル語などの英語アルファベットに基づいていない言語でWord2Vecモデルを実装することは可能ですか?もしそうなら、誰かが私に経路を提案することができます。英語以外の言語でWord2Vecを実装していますか?
ウルドゥー語、タミル語などの英語アルファベットに基づいていない言語でWord2Vecモデルを実装することは可能ですか?もしそうなら、誰かが私に経路を提案することができます。英語以外の言語でWord2Vecを実装していますか?
ご使用の言語用のトークナイザ(ワードスプリッタ)を用意しておかなければならないと思いますが、データが小さくて変形された単語フォームを基本フォーム表現で置き換えたい場合は、 。
はここでPythonでgensimでモデルを訓練するための基本的な例です:ちょうどデータの前処理
from gensim import models
training_corpus = "corpus.txt"
with open(training_corpus,'r') as f:
plain_text = f.read()
sentences = plain_text.split("\n") # Assume one sentence per line
tokenized = []
for sentence in sentences:
# White-space-based word splitting, replace with a better tokenizer
tokens = sentence.strip().lower().split(" ")
tokenized.append(tokens)
# Train your model, see gensim documentation for parameters
model = models.Word2Vec(tokenized, min_count=3, size=50)
を試してみてください。 – Djokester
と辞書(単語、id)を作成し、numberized形式に変換します。その後、数値化されたファイルをword2vecに渡します。あなたは行くように設定されます。クエリ時間にちょうどあなたの入力を取って、辞書を使用し、それを訓練されたモデルに渡す前にnumberizedバージョンに変換してください! – user3639557