セットアップ完全一致文字列
私は住宅の広告データをこすりとパンダと分析します。平均統計を計算し、パンダのデータフレームに挿入しました:district_df
district_df
列の1つに、地区名:district_df['district']
が含まれています。私はdistrict_df
あたりから地区テーブル(district_table
)を作成する問題
彼らがどのように見えるdistrict_df['subdistrict']
、
district subdistrict
Bergen-Enkheim Bergen-Enkheim
Bornheim/Ostend Bornheim
Bornheim/Ostend Ostend
Harheim Harheim
Innenstadt I Altstadt
Innenstadt I Bahnhofsviertel
Innenstadt I Gallus
Innenstadt II Bockenheim
Innenstadt II Westend-Nord
⋮ ⋮
:
district_df
列の別の
for district in d_set: # d_set is a set containing all district names
district_table = district_df[district_df['district'].str.match(district)]
このコードは次のように動作します.1つの表が作成されます。
ただし、Innenstadt II
の表には、Innenstadt I
というサブディストリビューションも含まれています。
.str.match(district)
は正確ではないが部分的に一致しているようです。私。 Innenstadt I
はInnenstadt II
と一致します。
私の実際のdistrict_df
の列には、私がここに表示しているものより多く含まれています - さまざまな地区名で問題が発生します。
完全一致を得るにはどうすればよいですか?
私はそれが愚かな簡単なものになるだろう知っていたし。ありがとう。 – LucSpan
うれしいことが、幸運を助けることができます! – jezrael