2017-02-14 6 views
2

テキストを含むテキストファイルからキーワードを取得しようとしていますが、テキストを最初にステミングしています。以下のコードは動作しますが、なんらかの理由でキーワードリストの前に文字「u」が生成されます。例えば。Python Snowball Stemmer + RAKE: 'を作成します。

[(u'keyword1', 5), (u'keyword2', 4)]

そして「U」はどこから来るか私はわからない:これは私が得るものです。ここ は、(パッケージをインポートした後)のコードです:

stemmer = SnowballStemmer("english") 
rake_object = rake.Rake("SmartStoplist.txt", 5, 3, 4) 
s = open("test.txt", "r").read() 
s = re.sub('[^a-zA-Z0-9-_*.]', ' ', s) # Remove special characters that might cause problems with stemming 
words = s.split() 
stemmed = [stemmer.stem(word) for word in words] 
stemmed = ' '.join(stemmed) 
keywords = rake_object.run(stemmed) # Perform RAKE on stemmed text 
print(keywords) 
+0

これはUnicode文字列であることを意味しています。文字列型です。 – Arman

+0

ありがとうございます。キーワードをテキストファイルに保存したいが、テキストファイルにこの 'u'も保存する。どのようにしてテキストファイルにキーワードを保存すればよいか知っていますか? (したがって、 'u'、角括弧、およびスコアなし) – vdvaxel

+0

これはpython-2の権利ですか? –

答えて

0

それはそれはUnicode文字列、ステマー戻り文字列のこのタイプであることを意味しています。これはPythons 2.xの2.0以降の構文です。詳細については、documentationをご覧ください。ご心配なく。

関連する問題