私はutf-8
のテキストSMSのcsvファイルを持っています。Python:パンダを使用してCSVファイルからASCII以外の文字を取り除く
import pandas as pd
data = pd.read_csv('my_data.csv', sep=',')
data.head()
ようですが、出力を持っている:私はsms
列はそのようなレコード3,4および5のようにゴミ値は、それらが中に書かれていたかもしれませ持つすべてのレコード/行を削除したい
id city department sms category
01 khi revenue quk respns. 1
02 lhr revenue good. 1
03 lhr revenue †h\0h2h\0hh\ 0
04 isb accounts ?xœ1øiûüð÷üœç8i 0
05 isb accounts %â¡ã‘ã¸$ãªã±t%rã«ãÿã©â£ 0
英語以外の言葉私はこれらの記録に何が起こったのか分かりません。 sms
カラムで使用されている言語は非公式です(人々が通常はテキストメッセージで行うように)が、レコード1と2は大丈夫です。私は約200万のレコードを持っているので、それを達成するための便利な方法は何でしょうか。
編集:私はsms
列に非ASCII文字を含む任意の行を削除したい 。英数字でない行をフィルタリングする
英語がすべてでないものを除外しようとしているなど、完全な要件が何であるかを明確にすることはできますか?アスキーではない? – EdChum
「sms」の値がASCII以外のすべてのレコードをフィルタリングします。 –
[GSM 03.38](https://www.csoft.co.uk/support/character-sets#gsm_set)はASCII以外の文字をサポートしているため、ascii – EdChum