単語をcvc(子音/母音/子音)またはvcvグループに分割する正規表現を書いてみたいと思います。 ngramsに似ていますが、voyelsと子音を使用しています。次に例を示します。単語から子音/母音グループを抽出するには?
helloworld
は、次のグループを生成します:
hell
ello
llow
owo
world
私は、次の正規表現を書いている:
(?=(([aeiouy]+|[^aeiouy]+){3}))
最初の部分([aeiouy]+|[^aeiouy]+){3}
がVCVやCVC基のいずれかをキャプチャ、残りの部分は(?=())
です。 期待通りには動作しません:あなたは一人で先読みを使用する場合は、文字が消費されない
hell
ello
llow
low //owo expected
この部分を連結します。?[AEIOU] + | [B-dfghj-NP- tv-z] +) 'は次のcvcまたはvcvグループにマッチする前にエンジンに一群のボイスまたは子音を消費させます。私はそれを得たと思う。質問:子音を(明示的に指定することによって)子音をどのように(子音は母音ではなくすべてであると言っているのか)対比させる方がパフォーマンスが良いのでしょうか? – tigrou
@tigrou:大きな違いはないと思う。 –