2012-04-25 11 views
2

正規表現には障害がありますので、お詫びしております。空白で区切られた1-2文字の連続したセットを削除する正規表現

次のように私はテキストを持っている:

real text that i want to keep i e 2 2 1 i h i i i E h i L h R 9 more real text 
i e 1 i tr L h R 1 i L ? i j 1 more real text that i want to keep d i j 0 etc... 

あなたが発生し、「ジャンク」のテキストのセクションを参照してくださいすることができます - これらは私が削除したいものです。私は必ずしも100%の精度を求めているわけではありませんが、これらのセクションのほとんどを取り除く正規表​​現が欲しいです。私は、ジャンク・テキストが1つまたは2つの文字の4つ以上の連続した出現箇所と、それに続くスペースとみなされます。

タグに記載されているとおり、私はC#で作業しています。再度、感謝します。

+0

あなたは、文字列から削除したいものをよりspcificことはできますか?一緒にいるとき(逆の順序でさえ)、1と2で結ばれているのは私の推測です。私は正しい? –

答えて

3

これは何か?

\b(.{1,2}\s){4,} 

あなたができるように、どのような文字がわかっている場合は、明らかに、より正確な一致のためのfullstop /期間を置き換えることができます。

2

ちょうど別の正規表現解決策:(\s+(\S{1,2}(?=\s))){2,}

関連する問題