トークンテキストで特定の式を数えようとしています。私のコードは:リストのcount()内の正規表現が機能しない
tokens = nltk.word_tokenize(raw)
print(tokens.count(r"<cash><flow>"))
「トークン」はトークン化されたテキストのリストです(下図の一部)。しかし、ここの正規表現は機能しておらず、出力には「キャッシュフロー」が発生していないことが示されていますが、これは正しくありません。私はエラーメッセージを受け取りません。私が「現金」だけを数えれば、うまくいく。
'that', 'produces', 'cash', 'flow', 'from', 'operations', ',', 'none', 'of', 'which', 'are', 'currently', 'planned', ',', 'the', 'cash', 'flows', 'that', 'could', 'result', 'from'
誰でも問題の原因を知っていますか?
それから別々に数えてみてください。 –
@LukStorms plsは、私の場合は、 – dwill
@WiktorStribiżewの上に追加されたトークンの入力を参照してください実際に私はそれらを一緒に数える必要があります '現金'と 'フロー'は別に別の場所に表示されます確かに – dwill