2016-11-10 3 views
0

方法例えば文字列文字列を意味のあるものにする正規表現。パイソン

から英語以外の単語(語彙)を削除するには:

puppies monitoring_string = c1299fe10ba49eb54f197dd4f735fcdc dogtime 

どのように語彙を維持し、すべての非英語の単語を削除するには:私はしたいと思います 結果取得です:

puppies monitoring string dogtime 

または

puppies monitoring string ....or others 

は文字列を意味のあるものにすることを目的としています。私がいた試した何

re.sub('[^A-Za-z0-9]+', ' ', string) 
result: puppies monitoring string c1299fe10ba49eb54f197dd4f735fcdc dogtime 
+2

「英語以外の単語」を定義してください。 –

+0

不適切な語彙 – bob90937

+2

正規表現は正しいツールではありません。単語のリストが必要な場合は、文字列をスペースで分割し、単語リストに含まれるエントリを確認します。これは多くの欠陥を伴う単純なアプローチですが。 –

答えて

0

は、任意のロジックの言葉を考えることはできませんが、非単語がないことを持っています。

開始するには、数字が含まれている単語を削除してみてください。

正規表現\w*\d\w*には、数字と数字の文字コンボがあります。

関連する問題