私は複数のcsvファイル(< 10 G)を持っています。ファイルをメモリ効率のよい方法で1つずつ検証する必要があります。私の検証>は適切Pythonでcsvファイルを効率よく読み込んで検証する
2-区切りでファイルを
1- include>の整数/小数
、3-として、特定の列を検証>特定の日付フォーマット(例えば。YYYY/MM/DD)を検証します列。
現在、私は
with open(file_name, 'r') as myCSV:
CSVreader = csv.reader(myCSV)
for row in CSVreader:
my_logic
を使用して、それぞれの行をループし、行ごとに条件を検証しています。利用可能なライブラリ/メソッドはありますか?私はパンダがメモリ効率が良いかどうかわからないことについて聞いたことがあります。
「より良い」を定義しますか?約26人の視聴者から、私はCSVファイルの行のイテレータがすでに非常に効率的だと思う唯一の人ですか?列の数が多い場合は、代わりの実装を探すことを検討します。私はこの質問が幅広くあることを知っています。あなたは、いくつかのことを試したり、メモリ使用量を比較したり、なぜインプリメンテーションaがbより優れているのかを尋ねたりせずに、より優れたライブラリ/メソッドを求めています。私のメモリには –