ソート列が

私は、データフレームのように持っている：私はAに従ってソートするソート列が

import pandas as pd 

df = pd.DataFrame({'A': ['286a2', '17', '286a1', '373', '200b', '150'], 'B': range(6)}) 

     A B 
0 286a2 0 
1  17 1 
2 286a1 2 
3 373 3 
4 200b 4 
5 150 5

。私は

df.sort_values(by='A')

を使用してこれを行うと私はほとんど正しいです

を得る：私は150前17を持っていると思いますが、これらのエントリは単なる値ではないとして、これを行う方法がわかりません実際の文字列は数値と文字で構成されています。これを行う方法はありますか？

エントリのパターンについて

EDIT：

それは常に最初の任意の長さの数値であるが、それは再び数値が続くことができる文字、続くことができます。

出典

2017-09-04 Cleb

HMMを試すことができますし。それは 'df.sort_v alues'は関数定義を受け入れます。 –

あなたはsort_indexでfloatにキャストで.にreplace文字を使用することができます。

df.index = df['A'].str.replace('[a-zA-Z]+','.').astype(float) 
df = df.sort_index().reset_index(drop=True) 
print (df) 
     A B 
0  17 1 
1 150 5 
2 200b 4 
3 286a1 2 
4 286a2 0 
5 373 3

出典

2017-09-04 15:24:59 jezrael

は '' 286a2 ''ではありません。 **すべての**数字を最初に文字列から抽出することができます。 –

これは '286a1'と' 286a2'エントリで失敗します。 – Cleb

ニース、編集されたバージョンは素晴らしい（upvoted）作品。 – Cleb

別の変形をjezraelの

In [1706]: df.assign(
       A_=df.A.str.replace('[/\D]', '.').astype(float) # or '[a-zA-Z]+' 
      ).sort_values(by='A_').drop('A_', 1) 
Out[1706]: 
     A B 
1  17 1 
5 150 5 
4 200b 4 
2 286a1 2 
0 286a2 0 
3 373 3

出典

2017-09-04 15:36:13 Zero

はい、ありがとうの代替（またupvoted）。 – Cleb

それとも、natsort

from natsort import natsorted, ns 
df.set_index('A').reindex(natsorted(df.A, key=lambda y: y.lower())).reset_index() 
Out[395]: 
     A B 
0  17 1 
1 150 5 
2 200b 4 
3 286a1 2 
4 286a2 0 
5 373 3

出典

2017-09-04 15:55:10 Wen

うまく動作します。このライブラリ（upvoted）を知らなかった... – Cleb

@クレブYw、素敵な日〜:)！ – Wen

答えて

関連する問題