私はPythonで400万以上の行を持つcsv.gzファイルの最初の100行だけを取得しようとしています。私はまた、列の数とそれぞれのヘッダーに関する情報が必要です。これどうやってするの?Pythonでcsv.gzファイルを開き、最初の100行を出力する
私はファイルを開く方法を理解するためにpython: read lines from compressed text filesを見ましたが、最初の100行を実際に印刷し、列の情報にいくつかのメタデータを取得する方法を理解するのは難しいです。
これはRead first N lines of a file in pythonですが、これをcsv.gzファイルを開き、非圧縮csvファイルを保存せずに読み込む方法とはわかりません。
私はこのコードを書かれている:
import gzip
import csv
import json
import pandas as pd
df = pd.read_csv('google-us-data.csv.gz', compression='gzip', header=0, sep=' ', quotechar='"', error_bad_lines=False)
for i in range (100):
print df.next()
私は、Pythonに新たなんだと私は結果を理解していません。私のコードは間違っていると私はそれをデバッグしようとしてきたが、私はどのドキュメントを見るか分からない。
私はこれらの結果を得る(そしてそれは、コンソールを下って行く保つ - これは抜粋です):
Skipping line 63: expected 3 fields, saw 7
Skipping line 64: expected 3 fields, saw 7
Skipping line 65: expected 3 fields, saw 7
Skipping line 66: expected 3 fields, saw 7
Skipping line 67: expected 3 fields, saw 7
Skipping line 68: expected 3 fields, saw 7
Skipping line 69: expected 3 fields, saw 7
Skipping line 70: expected 3 fields, saw 7
Skipping line 71: expected 3 fields, saw 7
Skipping line 72: expected 3 fields, saw 7
[質問する](http://stackoverflow.com/help/how-to-ask)を知っていれば、はるかに迅速にヘルプが表示されます。どのようなコードを書いたのですか? – CAB
私の投稿を更新しました。アイデア? – SizzyNini
生ファイルのサンプルを投稿できますか? (端末で 'head filename 'を試してみるなど) – moustachio