CSVからのデータ読み込みは、PandasのSQL(Postgre SQL)より高速です。 (私はSSDを有する)ここPandasはSQLよりもCSVを読み込む方が速い
は私のテストコードである:
import pandas as pd
import numpy as np
start = time.time()
df = pd.read_csv('foo.csv')
df *= 3
duration = time.time() - start
print('{0}s'.format(duration))
engine = create_engine('postgresql://user:[email protected]:port/schema')
start = time.time()
df = pd.read_sql_query("select * from mytable", engine)
df *= 3
duration = time.time() - start
print('{0}s'.format(duration))
foo.csvとデータベースの両方のデータと同じ列(同量、4列、完全な100 000行ですランダムintの)。
CSVは0.05s
SQLは0.5秒
を取る取るあなたはそれがCSVは10時間速くSQLよりであることを普通のことだと思いますか?私はここで何かが欠けていた場合、私はcsvファイルを読むことは常に単にデータ
CSVは非常にナイーブで簡単ですをロードする最も簡単な方法の一つであり、これは正常な動作です...
はい。正常.... –
ありがとう、私は本当にSQLが高速だったけれども、私は本当に – Haelle