GensimとPython

のUnicode私はこれ持っている：私はGensimでこれを行うとGensimとPython

texts = ['human', 'machine', 'interface']

を：

dictionary = corpora.Dictionary(texts)

それが追加さu'年代をUnicodeにつながる...どのように私はこれを抑制することができます？

2017-03-14 textnet

なぜですか？それを抑える必要はありません。 Pythonは接頭辞 'u'でUnicode文字列をマークします。 – Dmitry

なぜあなたが気になるのか分かりませんが、あなたは 'str'をあなたの結果にマップすることができます（Python 2を前提とします）。 – timgeb

それはトピックモデリングのスクリプトの一部であり、私が従うチュートリアルとは異なる結果を得て、それがいくつかのエンコーディングの問題によってトークンとして数えられるスペースや 'u 'を作ることが原因であると仮定しているので、 – textnet

エラーがユニコードのためだと思われる場合は、これを試すことができます。

u'whateveryourwtring'.encode('ascii', 'ignore') 
u'aあä'.encode('ascii', 'ignore')

2017-03-19 05:11:58 Aaron

答えて