Pythonのパンダ：私は以下のようにパンダのデータフレーム持って

1つのユニークなリストに列内のすべてのリストをコンパイルする方法：Pythonのパンダ：私は以下のようにパンダのデータフレーム持って

私は（「ヴァル」欄に）すべてのリストを組み合わせることができますどのようにユニークなリスト（セット）に、例えば[val1, val2, val33, val9, val6, val7]？

私はこれを次のコードで解決できます。私は、データフレームの行を反復せずに列からすべての一意の値を取得する簡単な方法があるのだろうか？

def_contributors=[] 
for index, row in df.iterrows(): 
    contri = ast.literal_eval(row['val']) 
    def_contributors.extend(contri) 
def_contributors = list(set(def_contributors))

出典

2016-08-11 kitchenprinzessin

ネストされたlistsにSeriesをエクスポートして、リストを平らにするsetを適用して別の解決策：

df = pd.DataFrame({'id':['a','b', 'c'], 'val':[['val1','val2'], 
               ['val33','val9','val6'], 
               ['val2','val6','val7']]}) 

print (df) 
    id     val 
0 a   [val1, val2] 
1 b [val33, val9, val6] 
2 c [val2, val6, val7] 

print (type(df.val.ix[0])) 
<class 'list'> 

print (df.val.tolist()) 
[['val1', 'val2'], ['val33', 'val9', 'val6'], ['val2', 'val6', 'val7']] 

print (list(set([a for b in df.val.tolist() for a in b]))) 
['val7', 'val1', 'val6', 'val33', 'val2', 'val9']

タイミング：

df = pd.concat([df]*1000).reset_index(drop=True) 

In [307]: %timeit (df['val'].apply(pd.Series).stack().unique()).tolist() 
1 loop, best of 3: 410 ms per loop 

In [355]: %timeit (pd.Series(sum(df.val.tolist(),[])).unique().tolist()) 
10 loops, best of 3: 31.9 ms per loop 

In [308]: %timeit np.unique(np.hstack(df.val)).tolist() 
100 loops, best of 3: 10.7 ms per loop 

In [309]: %timeit (list(set([a for b in df.val.tolist() for a in b]))) 
1000 loops, best of 3: 558 µs per loop

タイプの場合listしかしstring使用str.stripとstr.splitではありません。

df = pd.DataFrame({'id':['a','b', 'c'], 'val':["[val1,val2]", 
               "[val33,val9,val6]", 
               "[val2,val6,val7]"]}) 

print (df) 
    id    val 
0 a  [val1,val2] 
1 b [val33,val9,val6] 
2 c [val2,val6,val7] 

print (type(df.val.ix[0])) 
<class 'str'> 

print (df.val.str.strip('[]').str.split(',')) 
0   [val1, val2] 
1 [val33, val9, val6] 
2  [val2, val6, val7] 
Name: val, dtype: object 

print (list(set([a for b in df.val.str.strip('[]').str.split(',') for a in b]))) 
['val7', 'val1', 'val6', 'val33', 'val2', 'val9']

出典

2016-08-11 12:14:46 jezrael

私は、これを追加しました：conve rters = {"val"：literal_eval} – kitchenprinzessin

この列を.apply(pd.Series)のDataFrameに変換します。列を積み重ねると、返されたシリーズでuniqueメソッドを呼び出すことができます。

df 
Out[123]: 
      val 
0  [v1, v2] 
1  [v3, v2] 
2 [v4, v3, v2]

df['val'].apply(pd.Series).stack().unique() 
Out[124]: array(['v1', 'v2', 'v3', 'v4'], dtype=object)

出典

2016-08-11 12:11:16 ayhan

あなたが希望listを得るために、いくつかのstringの操作に続いてstr.concatを使用することができます。あなたにリストをしたい場合は

np.unique(np.hstack(df.val))

In [60]: import re 
    ...: from collections import OrderedDict 

In [62]: s = df['val'].str.cat() 

In [63]: L = re.sub('[[]|[]]',' ', s).strip().replace(" ",',').split(',') 

In [64]: list(OrderedDict.fromkeys(L)) 
Out[64]: ['val1', 'val2', 'val33', 'val9', 'val6', 'val7']

出典

2016-08-11 12:37:12

一つの方法は、np.hstackを使用して配列にそれらの要素を抽出してくれそうのようなユニークな要素の配列を与えることnp.uniqueを使用することです出力は、.tolist()を追加 - CSVファイルをインポートするときのval列がリストオブジェクトタイプとして認識されるように

np.unique(np.hstack(df.val)).tolist()

出典

2016-08-11 13:02:32 Divakar

非常に興味深いですが、あなたの解決策は 'set'でリストの理解力としてはより速くなると思います。 – jezrael

@jezraelうん、 'hstack'は私が推測するところではあまり役に立たない。ああ、私が最後にやったことはありませんし、さらに遅いです！ – Divakar

これはもっと遅い 'In [310]：％timeit np.unique（np.concatenate（df.val））ループ10個、最高3：39.6 ms /ループ' – jezrael

Pythonのパンダ：私は以下のようにパンダのデータフレーム持って

答えて

関連する問題