2016-10-20 22 views
1

私はthisチュートリアル、すべてに従うことは結構です、私は前処理すると、私のモデルを訓練しかし、私は次のコードとの類似性を見つけたいとき:どのようにアラビア語/ペルシャ語の言語のgensimと列車word2vec

model = gensim.models.Word2Vec.load("wiki.fa.word2vec.model") 
print model.most_similar(U'ماه') 

ベクターはしていません適切なフォーマット:

[(u'\u0631\u0648\u0632', 0.6399222612380981), (u'\u0647\u0641\u062a\u0647', 0.5578583478927612), (u'\u0645\u0627\u0647\u0647\u0627\u06cc', 0.5577661991119385), (u'\u062f\u0631\u0645\u0627\u0647', 0.5260834097862244), (u'\u0634\u0627\u0645\u06af\u0627\u0647', 0.5142802596092224), (u'\u06cc\u06a9\u0645\u0627\u0647', 0.48211610317230225), (u'\u0642\u062f\u06cc\u0631\u0641', 0.4799095690250397), (u'\u06cc\u06a9\u0633\u0627\u0644', 0.47623544931411743), (u'\u0645\u0627\u0647\u0647', 0.46996498107910156), (u'\u062d\u0648\u062a', 0.4551585912704468)] 

この問題を解決する方法は誰にも分かりますか?

答えて

3

あなたはユニコード文字列ですか? 私は結果は大丈夫です、あなたが戻ってPythonの文字列にUnicode文字列を変更することができると思う:

text=u'\u0631\u0648\u0632' 
text2=u'\u0647\u0641\u062a\u0647' 
print(str(text)) 
print(str(text2)) 

結果は以下のとおりです。 روز هفته

+0

おかげで、私はこれがであることのPythonの正常な動作です見られるように辞書またはリストのUnicode文字列を期待どおりに表示することはできません。 – Amir