2016-11-14 4 views
-1

を使用して、Googleの1グラムを解析我々は、次を参照してください。正規表現

'dim\t543950' 
'dim\t940' 
'dim\t2109' 
'dim\t2541373' 
'dim .\t1354' 
'dim\t598' 
'dim\t702' 

は、私は上記のすべてを一致させたいのですが、ないような何か:

'dim.log\t133' 
`dimwit\t133` 

私の現在の正規表現は次のとおりです。

r = re.compile('dim[\s]+') 

そして、上記の文字列のそれぞれを解析するときはうまくいくようです。しかし、今私が\tに分割してrとマッチすると、それらの大部分は拒否されます。これはdimの後にスペースがないので意味があります。次のようなものを使用してください:

re.compile(r'dim\b') 

また、私が必要とするすべてのものをキャッチしません。上のケースにマッチする適切な正規表現は何ですか?

答えて

1

これは:

^dim(\.)?(\\)?t[0-9]+$ 

正規表現は、あなたが言及したグループから文字列をキャッチ。