正規表現のステマーコードの説明

-3

def stemmer(word): 
    [(stem,end)] = re.findall('^(.*ss|.*?)(s)?$',word) 
    return stem

出典

2011-12-25 Ray Hmar

これは、2つの部分に単語を分割：stemとend。 3例があります。

言葉がで終わるss（またはそれ以上s）：stem <- wordとend <- ""
単語が単一sで終わる：sで終わっていないstem <- word without "s"とend <- "s"
単語：stem <- wordおよびend <- ""

これは、キャプチャする正規表現によって行われます。完全な言葉（^....$のため）。最初の部分（すなわちstem）は、可能な限りss（.*ss）で終わるか、できるだけ少ない（.*?）で終わるかのいずれかで構成されています。その後、可能であれば終了sはendと解釈されます。

最初のケース（可能な限りssで終わる）では、endの部分にはさらにsが存在しないことに注意してください。

出典

2011-12-25 11:50:42 Howard

正規表現のステマーコードの説明

答えて

関連する問題