私は以下のデータフレームを持っています。パターンがどこにあるかなどのトークンを抽出するルールエンジンを構築したいと思います。 "米国"。それを行う最良の方法は何ですか?この種のタスクに正規表現やCGULのようなものはありますか?任意の提案をいただければ幸いです。パンダのデータフレームからの情報の抽出
WORD_INDEX WORD_TOKEN WORD_POS
0 TRUMP PROPN
1 IS ADP
2 THE ADP
3 PRESIDENT NOUN
4 OF ADP
5 THE ADP
6 UNITED NOUN
7 STATES NOUN
私はWORD_POSで始まり、WORD_TOKENを探します。どのようにそれを行うにはどのようなアイデア?たとえば、WORD_POSがNOUNで、次のWORD_POSがNOUNであるWORD_TOKENを探したいとします。
トークンを 'UNITED'と' STATES'に分けて、最初のトークンとそれに続くトークンを確認できますか? – titipata