日本語のPython2でテキストクラスタリングを始めました。しかし、これらの日本語単語/用語に基づいて辞書を作成した場合、辞書キーは日本語ではなくユニコードになります。次のようにコードは次のとおりです。日本語の辞書キーにUnicodeをエンコードする
# load data
allWrdMat10 = pd.read_csv("../../data/allWrdMat10.csv.gz",
encoding='CP932')
## Set X as CSR Sparse Matrix
X = np.array(allWrdMat10)
X = sp.csr_matrix(X)
## create dictionary
dict_index = {t:i for i,t in enumerate(allWrdMat10.columns)}
freqrank = np.array(dict_index.values()).argsort()
X_transform = X[:, freqrank < 1000].transpose().toarray()
次のようにallWrdMat10.columns
の結果はまだ日本のとおりです。
[u'\u77ed\u9283',
u'\u5efa\u3066',
u'\u4f0a',
u'\u5e73\u5b89',
u'\u6025\u9a30',
u'\u897f\u65e5\u672c',
u'\u5e03\u9663',
...]
は、どのような方法があります:として
Index([u'?', u'.', u'・', u'%', u'0', u'1', u'10月', u'11月', u'12
月', u'1つ',
...
u'瀋陽', u'疆', u'盧', u'籠', u'絆', u'胚', u'諫早', u'趙', u'鉉', u'鎔
基'],dtype='object', length=8655)
はしかし、dict_index.keys()
の結果があります日本語の言葉や言葉を辞書のキーに入れておくことができますか?または、ユニコードを日本語の単語/用語に戻すことができる方法はありますか?ありがとう。
ありがとうございます。 @KHELILI Hamza、あなたはそのプロセスに関する詳細を教えていただけますか? – tzu
@tzuこのヘルプhttps://stackoverflow.com/questions/809796/any-gotchas-using-unicode-literals-in-python-2-6 –
@tzuあなたのコードがうまくいけば、あなたは忘れないでください私の答えを受け入れてください –