2つの列を持つpandasデータフレームがあります。df.column.str.containsの使用とpandasデータフレーム列の更新
df= pd.DataFrame({"C": ['this is orange','this is apple','this is pear','this is plum','this is orange'], "D": [0,0,0,0,0]})
このCの列を読んで、D列に果物の名前を戻したいと考えています。だから私の思考プロセスでは、df.C.str.containsを使って特定の文字列がCの各行に表示されているかどうかを判断していました.Cの要素は実際には長い文字列である可能性があります。 "これは赤いリンゴです"と言いますが、リンゴという言葉が細胞内に現れた場合にのみ気にします。私はstr.containsを使用することに結びついていないことに注意する必要がありますが、これは私にとって最も明白な道に思えました。どのように私がそれを適用するか分からない。最終データフレームは次のようになります
:あなたは果物が抽出される方法を指定しませんでしたので
df= pd.DataFrame({"C": ['this is orange','this is apple','this is pear','this is plum','this is orange'], "D": ['orange','apple','pear','plum','grapefruit']})
?だから代わりに、それはthisis(オレンジ)のようなものかもしれません。そして私はオレンジ色の言葉だけを返したい。 – John
df.C.str.extract(これは\(?(A-Za-z)+)\ s?。*? ')を使用して、果物の周りのかっこの可能性を扱うことができます。ケース – Vaishali
受け入れていただきありがとうございます:) – Vaishali