接尾辞や接頭辞(形態素や接辞)などの構成要素に単語を分割してリストを取得しようとしています。セグメンテーションのための正規表現 - 形態素または接尾辞に単語を分割する
re.findall
関数を使用して正規表現を試してみました。 (下図)
>>> import re
>>> affixes = ['meth','eth','ketone', 'di', 'chloro', 'yl', 'ol']
>>> word = 'dimethylamin0ethanol'
>>> re.findall('|'.join(affixes), word)
['di', 'meth', 'yl', 'eth', 'ol']
しかし、私はそれが含まれるように一致していないれたセクションを必要とします。例えば、上記の例では、出力に望まれる:
['di', 'meth', 'yl', 'amin0', 'eth', 'an', 'ol']
誰もがリストにこれらのセグメントを抽出する方法を知っていますか?