1
が、私は文字のパターンを検索したいと私たちはものを見つけた場合、削除する必要が文字列の単語は、特定の文字が含まれていると
data['sentences']
This is a sentence
Donald Trump
Machine Learning
Python is good
、次のように私はデータを持っていると仮定した文字を含む単語を削除した場合文字を含むその単語。
"OOD" と "UMP"、私は "ENC" との言葉を削除したいとし、出力があるべき、
data['sentences']
This is a
Donald
Machine Learning
Python is
私はre.subを使用した場合、私は次のことを試してみました、
re.sub("enc", "", y)
しかし、これはThis is a sente
のような出力を与えています。私は単語全体を削除する方法がわかりません。
誰でも私がこれを行うのを助けることができますか?私はこれを行うための効率的な方法を見つけたいと思っています。私はpysparkを使ってこれをほぼ10億のレコードに対して実行したいからです。誰でもこのことを手伝うことができますか?
これはジョブボードではありません。私たちはここであなたを "助ける"のではありません。あなたはコードを投稿し、何をすべきか説明し、それがどうやっていないのかを説明します。 –
私は理解していない、あなたのデータは、辞書、ファイル、リスト..ですか? 'data ['sentences']'とは何ですか? – RafaelC
@MarcB申し訳ありません。私はいくつかのことを試しました。ちょうどそれをここで言及しなかった。私は今それを追加することができます。 – Observer