0
のUnicode私はこれ持っている:私はGensimでこれを行うとGensimとPython
texts = ['human', 'machine', 'interface']
を:
dictionary = corpora.Dictionary(texts)
それが追加さu'
年代をUnicodeにつながる...どのように私はこれを抑制することができます?
のUnicode私はこれ持っている:私はGensimでこれを行うとGensimとPython
texts = ['human', 'machine', 'interface']
を:
dictionary = corpora.Dictionary(texts)
それが追加さu'
年代をUnicodeにつながる...どのように私はこれを抑制することができます?
エラーがユニコードのためだと思われる場合は、これを試すことができます。
u'whateveryourwtring'.encode('ascii', 'ignore')
u'aあä'.encode('ascii', 'ignore')
なぜですか?それを抑える必要はありません。 Pythonは接頭辞 'u'でUnicode文字列をマークします。 – Dmitry
なぜあなたが気になるのか分かりませんが、あなたは 'str'をあなたの結果にマップすることができます(Python 2を前提とします)。 – timgeb
それはトピックモデリングのスクリプトの一部であり、私が従うチュートリアルとは異なる結果を得て、それがいくつかのエンコーディングの問題によってトークンとして数えられるスペースや 'u 'を作ることが原因であると仮定しているので、 – textnet