2017-06-02 18 views
-1

私は別の文書の一部であり、彼らはbottom.Iでのページ番号は各ドキュメントを見つける方法を考え出したていたが、画像が順番にではなく、私はによってそれらをソートしたいいくつかの画像にOCRをやっていますそのページ番号。一つのしゃっくりテキストからページ番号を検索/抽出する方法は?

  • Page 1 of 35
  • Page 1-35
  • Page 35

プラスPageも小文字pageにすることができすなわち、ページ番号の形式にばらつきがあるということです。私が探しているのは、正規表現を使ってページからこれを抽出する一般的な方法です。コンパイルされたバージョンは、それぞれのケースで異なるものよりも速くなるので、正規表現で扱えると素晴らしいでしょう。 おかげ

答えて

1

は場合は '私は' フラグ小文字を区別しない正規表現以下、

page\s[\d]?[\s\d\-of]+ 

使用してみてください。

RegexDemo

+0

それは良いチームメイトに動作します。扱われず、同定される症例はほとんどない。すなわち。 "ページ35 6663 24"、 "34ページO"、 "2 F Oページ" –

+0

ここhttps://regex101.com/r/TEc4Hx/4 –

+0

はい私がやってみます。私が言っていることは、これらを抽出すべきではないということです。単一の数字のページ番号はそれの後ろにスペースを持っていません。 "page 35 6663 24"のように "page 35"と2つのページ番号、 "ページo f 2"は最初に番号を探すべきです。 –

0

以下のコマンドを使用すると、purpouseのために適しているかどうかを確認してください。おかげで

>>> re.findall(r'\w*\s\w*\d{1,5}','Page 1-35') 
['Page 1'] 
>>> re.findall(r'\w*\s\w*\d{1,5}','Page 35') 
['Page 35'] 
>>> re.findall(r'\w*\s\w*\d{1,5}','Page 1 of 35')[0] 
'Page 1' 
>>> re.findall(r'\w*\s\w*\d{1,5}','page 1 of 35')[0] 
'page 1' 
` 
関連する問題