2016-09-06 21 views
1

が、私は文字のパターンを検索したいと私たちはものを見つけた場合、削除する必要が文字列の単語は、特定の文字が含まれていると

data['sentences'] 

This is a sentence 
Donald Trump 
Machine Learning 
Python is good 

、次のように私はデータを持っていると仮定した文字を含む単語を削除した場合文字を含むその単語。

"OOD" と "UMP"、私は "ENC" との言葉を削除したいとし、出力があるべき、

data['sentences'] 

This is a 
Donald 
Machine Learning 
Python is 

私はre.subを使用した場合、私は次のことを試してみました、

re.sub("enc", "", y) 

しかし、これはThis is a senteのような出力を与えています。私は単語全体を削除する方法がわかりません。

誰でも私がこれを行うのを助けることができますか?私はこれを行うための効率的な方法を見つけたいと思っています。私はpysparkを使ってこれをほぼ10億のレコードに対して実行したいからです。誰でもこのことを手伝うことができますか?

+1

これはジョブボードではありません。私たちはここであなたを "助ける"のではありません。あなたはコードを投稿し、何をすべきか説明し、それがどうやっていないのかを説明します。 –

+0

私は理解していない、あなたのデータは、辞書、ファイル、リスト..ですか? 'data ['sentences']'とは何ですか? – RafaelC

+0

@MarcB申し訳ありません。私はいくつかのことを試しました。ちょうどそれをここで言及しなかった。私は今それを追加することができます。 – Observer

答えて

1

は、識別子の前後に反復を追加

ありがとう:

re.sub(r'\w*enc\w*', '', y) 

指定された文字列(それが中含まれている、すなわち単語)と一緒に空白すべての英数字に置き換えます。

関連する問題