レビューデータを消去したい。ここに私のコードです:Pythonでstring.punctuationの後に空白を追加するには?
def processData(data):
data = data.lower() #casefold
data = re.sub('<[^>]*>',' ',data) #remove any html
data = re.sub(r'#([^\s]+)', r'\1', data) #Replace #word with word
remove = string.punctuation
remove = remove.replace("'", "") # don't remove '
p = r"[{}]".format(remove) #create the pattern
data = re.sub(p, "", data)
data = re.sub('[\s]+', ' ', data) #remove additional whitespaces
pp = re.compile(r"(.)\1{1,}", re.DOTALL) #pattern for remove repetitions
data = pp.sub(r"\1\1", data)
return data
このコードはほとんどうまくいっていますが、まだ問題はあります。この文「彼女はpublicserviceで働く」ために 、
私は「彼女がpublicserviceで働く」です。
問題は、文字列の句読点の後に空白がないです。
私は私の文章は、「彼女は公共サービスで働く」このようになりたいです。
あなたは私のコードで私を助けることができますか?
あなたは句読点の後に空白を追加しますか?または句読記号に置き換えますか?どうか明らかにしてください。 –
コード内に「re」とは何ですか? –
@AhsanulHaque実際には、文字列の句読点を削除した後に空白を追加したいと思います。しかし、句読点を空白で置き換えることはおそらくうまくいくでしょう。 –