私は715,014エントリのデータセットを持っています。これは作業機密ファイルなので、csvファイルをアップロードすることはできません。ここで最初の10行は次のとおりcsvソースファイルのエントリがありません
IP、Pingの、ホスト名、ポート
172.20.1.1,4 MS、[N/A]、[N/S]
172.20.1.2,3 MS、 [N/A]、[N/S]
172.20.1.3,3 MS、[N/A]、[N/S]
172.20.1.4、[N/A]、[N/s]、[n/s]
172.20.1.5 [n/a]、[n/s]、[n/s]
172.20.1.6、[N/A]、[N/S]、[N/S]
172.20.1.7、[N/A]、[N/S]、[N/S]
172.20.1.8、[N/A]、[N/S]、[N/S]
172.20.1.9,0 MS、[N/A]、[N/S] 172.20.1.10、 1ミリ秒、d36b3yz1-phth.regis.net、[N/S]
は、ここに私が試したものです:
import pandas as pd
import csv
df = pd.read_csv('Userpc.csv',quoting=csv.QUOTE_NONE, error_bad_lines=False)
df.info()
結果:
のRangeIndex:1448のエントリ、1447から0
データ列(合計4列):
IP 1448の非ヌルオブジェクト
ピング1448非NULLオブジェクト
ホスト名1448 null以外のオブジェクト
のポート1447 null以外のオブジェクト
dtypes:オブジェクトは(4)
メモリ使用量:45.3+ KB
パンダは私のデータのほとんどを逃したことができますどのように?新しい.csvファイルに書き込むときには、完全な700,000行の代わりに1448行だけが含まれます。
ご質問ありがとうございます。申し訳ありませんが、フォーマットに問題があります。
問題を示すデータの小さなサブセットを見つけます。 – Goyo
ポートのレコードに[n/s]以外のものがある場合、それは何ですか? –
@BillBellポートはすべて[n/s]です。 –