1
正規表現を使用して大学名を抽出しています。主に2つのパターンが観察される。regexパターンの優先順位を他のパターンよりも優先する方法
- "いくつかの名前" 大学 - >例: "何か" のアンナ大学
- 大学 - >例:エクセター このため
の大学、私のように二つのパターンが書かれています、
regex = re.compile('|'.join([r'[Uu]niversity of (\w+){1,3}',r'(?:\S+\s){1,3}\S*[uU]niversity']))
しかし、私は適切な予期された答えが得られません。正規表現の上に適用するたとえば 、この文については
sentence = "Biology Department University of Vienna"
、私が間違っている
"Biology Department University"
を取得しています。両方のパターンが一致するので、2番目のパターンが一致し、フレーズが抽出されます。
私は最初のパターンを優先する必要があるため、同様のシナリオで「何かの大学」が抽出されます。
誰もが一般的に