Pandas read_csvがカンマ区切りのCSVを正しくロードしない

今、私はKaggelのタイタニックチャレンジを分析します。私のコードはこれです： code Pandas read_csvがカンマ区切りのCSVを正しくロードしない

をしかし、私の理想的な出力は次のようになります。 ideal output

だから、私の最後のコードで

df["Age"].fillna(df.Age.median(), inplace=True)

であり、エラーは、私が使用

--------------------------------------------------------------------------- 
KeyError         Traceback (most recent call last) 
/Users/XXXi/anaconda/envs/py36/lib/python3.6/site-packages/pandas/indexes/base.py in get_loc(self, key, method, tolerance) 
    2133    try: 
-> 2134     return self._engine.get_loc(key) 
    2135    except KeyError: 

pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4433)() 

pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4279)() 

pandas/src/hashtable_class_helper.pxi in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:13742)() 

pandas/src/hashtable_class_helper.pxi in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:13696)() 

KeyError: 'Age' 

During handling of the above exception, another exception occurred: 

KeyError         Traceback (most recent call last) 
<ipython-input-4-9763f0a9951c> in <module>() 
----> 1 df["Age"].fillna(df.Age.median(), inplace=True) 

/Users/XXXi/anaconda/envs/py36/lib/python3.6/site-packages/pandas/core/frame.py in __getitem__(self, key) 
    2057    return self._getitem_multilevel(key) 
    2058   else: 
-> 2059    return self._getitem_column(key) 
    2060 
    2061  def _getitem_column(self, key): 

/Users/XXXi/anaconda/envs/py36/lib/python3.6/site-packages/pandas/core/frame.py in _getitem_column(self, key) 
    2064   # get column 
    2065   if self.columns.is_unique: 
-> 2066    return self._get_item_cache(key) 
    2067 
    2068   # duplicate columns & possible reduce dimensionality 

/Users/XXXi/anaconda/envs/py36/lib/python3.6/site-packages/pandas/core/generic.py in _get_item_cache(self, item) 
    1384   res = cache.get(item) 
    1385   if res is None: 
-> 1386    values = self._data.get(item) 
    1387    res = self._box_item_values(item, values) 
    1388    cache[item] = res 

/Users/XXXi/anaconda/envs/py36/lib/python3.6/site-packages/pandas/core/internals.py in get(self, item, fastpath) 
    3541 
    3542    if not isnull(item): 
-> 3543     loc = self.items.get_loc(item) 
    3544    else: 
    3545     indexer = np.arange(len(self.items))[isnull(self.items)] 

/Users/XXXi/anaconda/envs/py36/lib/python3.6/site-packages/pandas/indexes/base.py in get_loc(self, key, method, tolerance) 
    2134     return self._engine.get_loc(key) 
    2135    except KeyError: 
-> 2136     return self._engine.get_loc(self._maybe_cast_indexer(key)) 
    2137 
    2138   indexer = self.get_indexer([key], method=method, tolerance=tolerance) 

pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4433)() 

pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4279)() 

pandas/src/hashtable_class_helper.pxi in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:13742)() 

pandas/src/hashtable_class_helper.pxi in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:13696)() 

KeyError: 'Age'

起こりますsep=','私は本当になぜこのコードが理解できないのですか？各カンマで区切ってください。どうすればこの問題を解決できますか？同じ行に置き換え、は

私のデータは

出典

2017-08-26 user8385498

注意を！

主な問題は、データをダウンロードすることでした。 Kaggle Titanic Datasetの読み込みと処理の問題が発生した場合は、hereからCSVを再ダウンロードし、プログラムを再実行してください。

あなたはdelimiter=','を渡すことができます。

mapping = {'male' : 0, 'female' : 1}

をそして、あなたはpd.Series.replaceを呼び出します：

df = pd.read_csv("Desktop/data/train.csv", delimiter=',') 
print(df.head()) 

    PassengerId Survived Pclass \ 
0   1   0  3 
1   2   1  1 
2   3   1  3 
3   4   1  1 
4   5   0  3 

               Name  Sex Age SibSp \ 
0       Braund, Mr. Owen Harris male 22.0  1 
1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0  1 
2        Heikkinen, Miss. Laina female 26.0  0 
3  Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0  1 
4       Allen, Mr. William Henry male 35.0  0 

    Parch   Ticket  Fare Cabin Embarked 
0  0   A/5 21171 7.2500 NaN  S 
1  0   PC 17599 71.2833 C85  C 
2  0 STON/O2. 3101282 7.9250 NaN  S 
3  0   113803 53.1000 C123  S 
4  0   373450 8.0500 NaN  S 


print(df.columns) 

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 
     'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'], 
     dtype='object')

次に、あなたが種類のマッピングを作成することができます

df.Sex = df.Sex.replace(mapping) 
print(df.Sex) 

0 0 
1 1 
2 1 
3 1 
4 0 
Name: Sex, dtype: int64

出典

2017-08-26 08:44:08

pandasのドキュメントによると 'delimiter'はsepの代わりの名前です：https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html – StefanK

@StefanK私の経験から、私は、それらの組み合わせを使用するか、または一方を他方のものに変更することによって、動作しているケースがありました。私は彼らがお互いの補完物であり、交換品ではないと思う。編集：少し私の答えを変更しました。 –

@cᴏʟᴅsurあなたの答えはThです。私はurメッセージに従いましたが、AttributeErrorが発生しました。私が何かを知っていれば私の質問を更新しました。 – user8385498

あなたread_csvが正常に見えるです（私はなぜ知らない）トラブルを起こしているように思わ

は、私は1つの答えをたどったが、エラーが発生します。

まず、csvをそのまま変数dfに読み込みます。このようにしてコードがより洗練されます。

df = pd.read_csv('Desktop/data/train.csv',sep=',') 
df['Sex'] = df['Sex'].map({'female': 1, 'male': 0})

しかし、あなたはコンマはまた、あなたがDFにファイルを読んだ後、新しい行に置き換えると inplace=Trueを使用してクリーニングを行う標準の区切り

あるとして完全に9月の引数を残すことができます：

df['Sex'].replace({'male': 0, 'female': 1}, inplace=True)

を

一般的なアドバイス：

Kaggleたちbpageは、カーネルのセクションでスクリプトの共有とコメントをサポートしています。あなたがどこかに立ち往生している場合は、分析に取り掛かることができますどのように見て、それを見て試してみてください。

https://www.kaggle.com/c/titanic/kernels

出典

2017-08-26 08:27:18 StefanK

THX 、urコメント。あなたの手段、 df = pd.read_csv（ "Desktop/data/train.csv"、sep = '、'、inplace = True、regex = True）。replace（ "male"、0）.replace（ "female"、1）、右か？ – user8385498

のTypeErrorトレースバック（最新の最後のコール） ----> 1 df = pd.read_csv（ "Desktop/（例：女性、1） TypeError：parser_f（）に予期しないキーワードがあります引数 'インプレース'、私はウルのメッセージを誤解していますか？ – user8385498

オリジナルの回答を編集しました...新しい行のクリーニングを行います – StefanK

Pandas read_csvがカンマ区切りのCSVを正しくロードしない

答えて

関連する問題