2017-06-18 1 views
0

こんにちは私はcsvファイルをpandasデータフレームとしてインポートし、以下を実行しようとしています。パンダシリーズの各アイテムを合計し、最大で並べ替え

データフレームモデル:

  STATE  County     POP 
1  Alabama  Autauga County   54571 
2  Alabama  Baldwin County   182265 
3  Alabama  Barbour County   27457 
... 
3168 Wisconsin   Wood County   74749 
3170 Wyoming  Albany County   36299 
3171 Wyoming  Big Horn County   11668 
3172 Wyoming  Campbell County   46133 

1)は、国家

2あたりの上位2つの郡のリストを取得します)状態ごとに上位2県

3の合計を取得します。 。)最大から最小にソートされた最大の人口を持つ上位2つの状態を一覧表示する

以下を使用して項目1を達成できました。この出力からインデックス値を削除する方法はありますか?

census_df.groupby('STATE')['POP'].nlargest(2) 

STATE      
Alabama    37  658466 
         49  412992 
Alaska    71  291826 
         76  97581 
Arizona    106  3817117 
         109  980263 
Arkansas    174  382748 
         118  221339 

しかし、シリーズの各アイテムを合計すると、シリーズ全体が合計されます。

x.sum() 

シリーズ内の各項目を合計する方法はありますか?また、私はこの情報を収集する最も効率的な方法を使用しているかわからない。どんな助けもありがとう。

私の所望の出力は次のようになります。

トップ2で最も人口の多い州:

STATE  POP_SUM     
Arkansas 382748 
Wisconsin 271431 

答えて

0

私は問題を理解していればあなたは状態によってグループ化を維持するために合計するlevel引数を渡すことができcorrectly-:

x.sum(level=0) 
+1

すごく簡単です。ありがとう!それはたくさんの助けになりました。 – MBasith

関連する問題