パンダのデータフレームからの情報の抽出

私は以下のデータフレームを持っています。パターンがどこにあるかなどのトークンを抽出するルールエンジンを構築したいと思います。 "米国"。それを行う最良の方法は何ですか？この種のタスクに正規表現やCGULのようなものはありますか？任意の提案をいただければ幸いです。パンダのデータフレームからの情報の抽出

WORD_INDEX WORD_TOKEN WORD_POS 
0   TRUMP  PROPN 
1   IS   ADP 
2   THE   ADP 
3   PRESIDENT NOUN 
4   OF   ADP 
5   THE   ADP 
6   UNITED  NOUN 
7   STATES  NOUN

私はWORD_POSで始まり、WORD_TOKENを探します。どのようにそれを行うにはどのようなアイデア？たとえば、WORD_POSがNOUNで、次のWORD_POSがNOUNであるWORD_TOKENを探したいとします。

出典

2017-02-14 Niranjan Sonachalam

トークンを 'UNITED'と' STATES'に分けて、最初のトークンとそれに続くトークンを確認できますか？ – titipata

contains文字列メソッドを使用することができます。これは、既定で正規表現引数をとります。例えば、

mask = df['WORD_TOKEN'].str.contains('(UNITED|STATES)') 
print(df[mask])

"united"または "states"を含むものと一致します。

出典

2017-02-14 23:40:59 AlexG

もう一度やりたい、WORD_POSで始まり、WORD_TOKENを見つけたい。どのようにそれを行うにはどのようなアイデア？たとえば、WORD_POSがNOUNで、次のWORD_POSがNOUNであるWORD_TOKENを探したいとします。 –

パンダのデータフレームからの情報の抽出

答えて

関連する問題