2
テキストを含むテキストファイルからキーワードを取得しようとしていますが、テキストを最初にステミングしています。以下のコードは動作しますが、なんらかの理由でキーワードリストの前に文字「u」が生成されます。例えば。Python Snowball Stemmer + RAKE: 'を作成します。
[(u'keyword1', 5), (u'keyword2', 4)]
そして「U」はどこから来るか私はわからない:これは私が得るものです。ここ は、(パッケージをインポートした後)のコードです:
stemmer = SnowballStemmer("english")
rake_object = rake.Rake("SmartStoplist.txt", 5, 3, 4)
s = open("test.txt", "r").read()
s = re.sub('[^a-zA-Z0-9-_*.]', ' ', s) # Remove special characters that might cause problems with stemming
words = s.split()
stemmed = [stemmer.stem(word) for word in words]
stemmed = ' '.join(stemmed)
keywords = rake_object.run(stemmed) # Perform RAKE on stemmed text
print(keywords)
これはUnicode文字列であることを意味しています。文字列型です。 – Arman
ありがとうございます。キーワードをテキストファイルに保存したいが、テキストファイルにこの 'u'も保存する。どのようにしてテキストファイルにキーワードを保存すればよいか知っていますか? (したがって、 'u'、角括弧、およびスコアなし) – vdvaxel
これはpython-2の権利ですか? –