0
方法例えば文字列文字列を意味のあるものにする正規表現。パイソン
から英語以外の単語(語彙)を削除するには:
puppies monitoring_string = c1299fe10ba49eb54f197dd4f735fcdc dogtime
どのように語彙を維持し、すべての非英語の単語を削除するには:私はしたいと思います 結果取得です:
puppies monitoring string dogtime
または
puppies monitoring string ....or others
は文字列を意味のあるものにすることを目的としています。私がいた試した何
:
re.sub('[^A-Za-z0-9]+', ' ', string)
result: puppies monitoring string c1299fe10ba49eb54f197dd4f735fcdc dogtime
「英語以外の単語」を定義してください。 –
不適切な語彙 – bob90937
正規表現は正しいツールではありません。単語のリストが必要な場合は、文字列をスペースで分割し、単語リストに含まれるエントリを確認します。これは多くの欠陥を伴う単純なアプローチですが。 –