私はpandasには新しく、これはstackoverflowに関する最初の質問です。私はpandasでいくつかの分析をしようとしています。複数のdictsからpandas DataFrameを作成
処理したいデータレコードを持つテキストファイルがあります。ファイルの各行は、固定された場所にあり、長さが固定の文字数のレコードに一致します。同じファイルにはさまざまな種類のレコードがあり、すべてのレコードはレコードの種類に応じて2文字の最初のフィールドを共有します。例として:
Some file:
01Jhon Smith 555-1234
03Cow Bos primigenius taurus 00401
01Jannette Jhonson 00100000000
...
field start length
type 1 2 *common to all records, example: 01 = person, 03 = animal
name 3 10
surname 13 10
phone 23 8
credit 31 11
fill of spaces
私は辞書に一つのレコードを変換するためにいくつかのコードを書いている:
person1 = {'type': 01, 'name': = 'Jhon', 'surname': = 'Smith', 'phone': '555-1234'}
person2 = {'type': 01, 'name': 'Jannette', 'surname': 'Jhonson', 'credit': 1000000.00}
animal1 = {'type': 03, 'cname': 'cow', 'sciname': 'Bos....', 'legs': 4, 'tails': 1 }
フィールドが空の場合(スペースで埋め)辞書には存在しません) 。
1種類のすべてのレコードで、dictsキーを列名として使用してpandas DataFrameを作成したいのですが、pandas.DataFrame.from_dict()を使用して成功を収めてみました。
ここに私の質問が来る:パンダでこれを行う方法はdictキーが列名になるので?この種のファイルに対処する他の標準的な方法はありますか?
ありがとうございます。_list of_dictsがキーです。ファイルは数百Mbsのgzip圧縮され、いくつかのGbsは圧縮されていないので、行単位で読み込み、対応するDataFrameに追加します。 – tinproject