2016-08-28 10 views
0

tar.gzで圧縮されたcsvファイルからpandas DataFrameを作成するにはどうすればよいですか?私はzipファイルでこれを行うこのコードを見つけました。 tar.gzとcsvファイルをダウンロードせずにtar.gzで動作させるには、次のコードで何を変更する必要がありますか?tar.gzで圧縮されたcsvからPanda Dataframeを作成するには?

import pandas, requests, zipfile, StringIO 
r =requests.get('http://data.octo.dc.gov/feeds/crime_incidents/archive/crime_incidents_2013_CSV.zip') 
z = zipfile.ZipFile(StringIO.StringIO(r.content)) 
df=pandas.read_csv(z.open('sample_CSV.csv')) 

私のファイルはhttps://ghtstorage.blob.core.windows.net/downloads/mysql-2016-06-16.tar.gz

+1

注意ZIPファイルは、ほぼ40ギガバイトであること。これは解凍され、メモリにロードされます。あなたはどれくらいのRAMを持っていますか? – ayhan

答えて

0

で、これはgzファイルのデフォルトの動作であるので、単にread_csvにファイル名
としてあなた.tar.gzファイルを供給し、それが自動的にそれを解凍して開きます、
試してみてください。

拡張子が小文字であることを確認してください。

+0

ありがとう、イスラエル!あなたの応答を感謝します。 – Geet

1

あなたは以下のようにtar.gz形式を抽出するために、以下の試用できます:

import tarfile 
tar = tarfile.open(fname, "r:gz") 
tar.extractall() 
tar.close() 
+0

ありがとう、Raghav!あなたの応答を感謝します。 – Geet

関連する問題