基本的に私は約17000行のcsvをpandasデータフレームにインポートしました。データの品質が非常に悪いため、int64
としてインポートされた日付列があります。日付の例としては、11969
、12132001
、1022013
などがあります。だから、私がしたいと思うのは、日付列の最後の4つの数字だけを取り出すことです。Python - 正規表現に基づいた検索と置換
だから私が使用したコードは次のとおりです。
test_str = str(df['Date'])
flags = re.MULTILINE
p = r'\d{4}$'
result = re.findall(p, test_str, flags)
私はわずか60 17000個の値をprint(result)
返されます。私はユニークを評価すると仮定していますが、長い試合の後、私はそれを理解できません。どのように私はこれを回避することができます上の任意のアイデア?
ありがとうございます - あなたの代わりの方法が働いています。 ええ私はサンプル/小さなデータセットで私の正規表現の仕組みを知っています..そのちょうど私は17000行のうち60を返すだろう。あなたが言ったように、私はパンダで変なことをしているに違いない。それをもう少し調べてみてください。 – Brrrr