私は検索を試してきましたが、これを行う簡単な方法がわからないので、あなたの専門知識が役立つことを望んでいます。Python Pandasは別の列を使って部分文字列を取り除いています
私は私がやりたいものを私に
FULL_NAME NAME
0 FIRST LAST FIRST
1 NaN NaN
2 FIRST LAST NAME2
3 FIRST NAME3 NAME3
4 FIRST NAME4 LAST NAME4
5 ANOTHER NAME NAME5
6 LAST NAME NAME6
を与える二つの列
import numpy as np
import pandas as pd
pd.options.display.width = 1000
testing = pd.DataFrame({'NAME':[
'FIRST', np.nan, 'NAME2', 'NAME3',
'NAME4', 'NAME5', 'NAME6'], 'FULL_NAME':['FIRST LAST', np.nan, 'FIRST LAST', 'FIRST NAME3', 'FIRST NAME4 LAST', 'ANOTHER NAME', 'LAST NAME']})
とパンダのデータフレームを持っているが「NAME」列から値を取得し、その後削除されそこにある場合は 'フルネーム'列から削除してください。したがって、関数は返されます
FULL_NAME NAME NEW
0 FIRST LAST FIRST LAST
1 NaN NaN NaN
2 FIRST LAST NAME2 FIRST LAST
3 FIRST NAME3 NAME3 FIRST
4 FIRST NAME4 LAST NAME4 FIRST LAST
5 ANOTHER NAME NAME5 ANOTHER NAME
6 LAST NAME NAME6 LAST NAME
これまでの関数を定義し、applyメソッドを使用しています。これは私の大規模なデータセットではむしろ遅く実行され、私はそれを行うより効率的な方法があることを望んでいます。ありがとう!ここで
def address_remove(x):
try:
newADDR1 = re.sub(x['NAME'], '', x[-1])
newADDR1 = newADDR1.rstrip()
newADDR1 = newADDR1.lstrip()
return newADDR1
except:
return x[-1]
素晴らしい!私は第2の解決策を考案しようとしていましたが、第3の解決策はさらに優れています!あなたは "zip"コマンドが何をしているのか教えていただけますか? – Link
うれしかった! 'zip'は複数のiterableを取り、元のiterablesから集約のイテレータを返します。より多くの条件では、2つ以上の繰り返し可能なループを同時に実行することができます。 https://docs.python.org/3/library/functions.html#zip – johnchase