Python Snowball Stemmer + RAKE： 'を作成します。

テキストを含むテキストファイルからキーワードを取得しようとしていますが、テキストを最初にステミングしています。以下のコードは動作しますが、なんらかの理由でキーワードリストの前に文字「u」が生成されます。例えば。Python Snowball Stemmer + RAKE： 'を作成します。

[(u'keyword1', 5), (u'keyword2', 4)]

そして「U」はどこから来るか私はわからない：これは私が得るものです。ここは、（パッケージをインポートした後）のコードです：

stemmer = SnowballStemmer("english") 
rake_object = rake.Rake("SmartStoplist.txt", 5, 3, 4) 
s = open("test.txt", "r").read() 
s = re.sub('[^a-zA-Z0-9-_*.]', ' ', s) # Remove special characters that might cause problems with stemming 
words = s.split() 
stemmed = [stemmer.stem(word) for word in words] 
stemmed = ' '.join(stemmed) 
keywords = rake_object.run(stemmed) # Perform RAKE on stemmed text 
print(keywords)

出典

2017-02-14 vdvaxel

これはUnicode文字列であることを意味しています。文字列型です。 – Arman

ありがとうございます。キーワードをテキストファイルに保存したいが、テキストファイルにこの 'u'も保存する。どのようにしてテキストファイルにキーワードを保存すればよいか知っていますか？（したがって、 'u'、角括弧、およびスコアなし） – vdvaxel

これはpython-2の権利ですか？ –

それはそれはUnicode文字列、ステマー戻り文字列のこのタイプであることを意味しています。これはPythons 2.xの2.0以降の構文です。詳細については、documentationをご覧ください。ご心配なく。

出典

2017-02-14 12:06:06 Dmitry

Python Snowball Stemmer + RAKE： 'を作成します。

答えて

関連する問題