2017-02-14 14 views
0

私は以下のデータフレームを持っています。パターンがどこにあるかなどのトークンを抽出するルールエンジンを構築したいと思います。 "米国"。それを行う最良の方法は何ですか?この種のタスクに正規表現やCGULのようなものはありますか?任意の提案をいただければ幸いです。パンダのデータフレームからの情報の抽出

WORD_INDEX WORD_TOKEN WORD_POS 
0   TRUMP  PROPN 
1   IS   ADP 
2   THE   ADP 
3   PRESIDENT NOUN 
4   OF   ADP 
5   THE   ADP 
6   UNITED  NOUN 
7   STATES  NOUN 

私はWORD_POSで始まり、WORD_TOKENを探します。どのようにそれを行うにはどのようなアイデア?たとえば、WORD_POSがNOUNで、次のWORD_POSがNOUNであるWORD_TOKENを探したいとします。

+0

トークンを 'UNITED'と' STATES'に分けて、最初のトークンとそれに続くトークンを確認できますか? – titipata

答えて

0

contains文字列メソッドを使用することができます。これは、既定で正規表現引数をとります。例えば、

mask = df['WORD_TOKEN'].str.contains('(UNITED|STATES)') 
print(df[mask]) 

"united"または "states"を含むものと一致します。

+0

もう一度やりたい、WORD_POSで始まり、WORD_TOKENを見つけたい。どのようにそれを行うにはどのようなアイデア?たとえば、WORD_POSがNOUNで、次のWORD_POSがNOUNであるWORD_TOKENを探したいとします。 –

関連する問題