私はクリーンアップが必要なテキストを持っており、ほとんどが「ほとんど」動作しています。
def removeStopwords(self, data):
with open(r'stopwords.txt') as stopwords:
wordList = []
for i in stopwords:
wordList.append(i.strip())
charList = list(data)
cat = ''.join(char for char in charList if not char in wordList).split()
return ' '.join(cat)
このページの先頭行に移動します。 http://en.wikipedia.org/wiki/Paragraphを入力し、この場合は関心のないすべての文字を削除します。すべて英数字以外の文字です。
段落(ギリシャの段落から「横に書いてください」または「横に書いている」)は、特定のポイントやアイデアを扱う書面による自己完結型の単位です。段落は1つまたは複数の文章で構成されます。[1] [2]段落の始まりは、新しい行から始まります。最初の行がインデントされることがあります。さまざまな時に、段落の始まりがピルクローによって示されました:¶
出力は、単語の一部が正しく再結合されず、修正方法がわからないことを除けば、かなりよく見えます。
横に書き込むためのギリシャparagraphosから段落または横に書かれている自己完結ユニット
「自己完結」という言葉を注意「自己完結」でした。
EDIT:ストップワードファイルの内容は単なる束です。
! $%^ 、 & *( ) {} [ ] <
、 。 / | \ ? 〜 ' : ; 「
私は本当にこのような場合には句読点た文字を削除しようとしていたので、私は全くの単語のリストを必要としませんが判明。
cat = ''.join(data.translate(None, string.punctuation)).split()
print ' '.join(cat).lower()
stopwords.txtの内容は何ですか?むしろ句読記号のリストではなく、言葉を停止しますか? – geoffspear
私は通常、「ストップワードの削除」とは実際の単語(「of」や「the」など)を削除すると考えています。あなたがここでやろうとしているのは、特定の文字を実際に削除することです(句読点を削除するなど)。あれは正しいですか? –
@Woobleストップワードは、英数字以外の文字または文字と数字以外のすべてでいっぱいです。 – aeupinhere