テキストからページ番号を検索/抽出する方法は？

-1

私は別の文書の一部であり、彼らはbottom.Iでのページ番号は各ドキュメントを見つける方法を考え出したていたが、画像が順番にではなく、私はによってそれらをソートしたいいくつかの画像にOCRをやっていますそのページ番号。一つのしゃっくりテキストからページ番号を検索/抽出する方法は？

Page 1 of 35
Page 1-35
Page 35

プラスPageも小文字pageにすることができすなわち、ページ番号の形式にばらつきがあるということです。私が探しているのは、正規表現を使ってページからこれを抽出する一般的な方法です。コンパイルされたバージョンは、それぞれのケースで異なるものよりも速くなるので、正規表現で扱えると素晴らしいでしょう。おかげ

出典

2017-06-02 Qaisar Rajput

は場合は '私は' フラグ小文字を区別しない正規表現以下、

page\s[\d]?[\s\d\-of]+

使用してみてください。

RegexDemo

出典

2017-06-02 06:53:19

それは良いチームメイトに動作します。扱われず、同定される症例はほとんどない。すなわち。 "ページ35 6663 24"、 "34ページO"、 "2 F Oページ" –

ここhttps://regex101.com/r/TEc4Hx/4 –

はい私がやってみます。私が言っていることは、これらを抽出すべきではないということです。単一の数字のページ番号はそれの後ろにスペースを持っていません。 "page 35 6663 24"のように "page 35"と2つのページ番号、 "ページo f 2"は最初に番号を探すべきです。 –

以下のコマンドを使用すると、purpouseのために適しているかどうかを確認してください。おかげで

>>> re.findall(r'\w*\s\w*\d{1,5}','Page 1-35') 
['Page 1'] 
>>> re.findall(r'\w*\s\w*\d{1,5}','Page 35') 
['Page 35'] 
>>> re.findall(r'\w*\s\w*\d{1,5}','Page 1 of 35')[0] 
'Page 1' 
>>> re.findall(r'\w*\s\w*\d{1,5}','page 1 of 35')[0] 
'page 1' 
`

出典

2017-06-02 07:09:06

テキストからページ番号を検索/抽出する方法は？

答えて

関連する問題