一致列のリスト名

私は2つのファイルを持っているとのデータフレームは、最初のものは、列名なしで、データフレームが含まれています一致列のリスト名

2008-03-13 15 56 0 25 
2008-03-14 10 32 27 45 
2008-03-16 40 8 54 35 
2008-03-18 40 8 63 30 
2008-03-19 45 32 81 25

と日時のを除いて、列名のリストを含む別のファイルを、（次の形式での列）：file.read()

リストの出力（グループ、年齢、収入、場所）

私の実際のデータには、もっと多くの列と列の名前があります。データフレームの列は、リストの要素として順序付けられます。つまり、最初の列はGroupに、3番目はIncomeに、最後はLocaleに等しくなります。私の目標は、データフレームの列にこのファイルに

with open(file2) as f: 
    list_of_columns=f.read() 
df=pd.read_csv(file1, sep='/t', names=list_of_columns)

をし、私はすでに単語を削除して前処理の作業を想像：この操作は（日時列がリストに含まれていない、とリストはPythonの形式でフォーマットされていない）明白な理由のために動作しません。 Listと（）をfile2の出力から削除し、列のdatetimeをリストの先頭に追加しますが、より洗練された迅速な解決策がある場合はお知らせください！

出典

2016-05-01 Amanda

あなたはこのようにそれを行うことができます。

import re 

fn = r'D:\temp\.data\36972593_header.csv' 
with open(fn) as f: 
    data = f.read() 

# it will also tolerate if `List(...) is not in the first line` 
cols = ['Date'] + re.sub(r'.*List\((.*)\).*', r'\1', data, flags=re.S|re.I|re.M).replace(' ', '').split(',') 

fn = r'D:\temp\.data\36972593_data.csv' 
# this will also parse `Date` column as `datetime` 
df=pd.read_csv(fn, sep=r'\s+', names=cols, parse_dates=[0])

結果：

In [82]: df 
Out[82]: 
     Date Group Age Income Location 
0 2008-03-13  15 56  0  25 
1 2008-03-14  10 32  27  45 
2 2008-03-16  40 8  54  35 
3 2008-03-18  40 8  63  30 
4 2008-03-19  45 32  81  25 

In [83]: df.dtypes 
Out[83]: 
Date  datetime64[ns] 
Group    int64 
Age     int64 
Income    int64 
Location    int64 
dtype: object

出典

2016-05-02 17:21:33 MaxU

列名のリストは、まさにこの形式の文字列として来る場合、あなたができる：

with open(file2) as f: 
    list_of_columns=f.read() 
list_of_columns = ['date'] + list_of_columns[5:-1].split(',') 
list_of_columns = [l.strip() for l in list_of_columns] # remove leading/trailing whitespace 
df=pd.read_csv(file1, sep='/t', names=list_of_columns)

出典

2016-05-01 22:26:53 Stefan

答えて

関連する問題