2017-03-14 13 views
0

のUnicode私はこれ持っている:私はGensimでこれを行うとGensimとPython

texts = ['human', 'machine', 'interface'] 

を:

dictionary = corpora.Dictionary(texts) 

それが追加さu'年代をUnicodeにつながる...どのように私はこれを抑制することができます?

+1

なぜですか?それを抑える必要はありません。 Pythonは接頭辞 'u'でUnicode文字列をマークします。 – Dmitry

+1

なぜあなたが気になるのか分かりませんが、あなたは 'str'をあなたの結果にマップすることができます(Python 2を前提とします)。 – timgeb

+0

それはトピックモデリングのスクリプトの一部であり、私が従うチュートリアルとは異なる結果を得て、それがいくつかのエンコーディングの問題によってトークンとして数えられるスペースや 'u 'を作ることが原因であると仮定しているので、 – textnet

答えて

0

エラーがユニコードのためだと思われる場合は、これを試すことができます。

u'whateveryourwtring'.encode('ascii', 'ignore') 
u'aあä'.encode('ascii', 'ignore') 
関連する問題