私は別の文書の一部であり、彼らはbottom.Iでのページ番号は各ドキュメントを見つける方法を考え出したていたが、画像が順番にではなく、私はによってそれらをソートしたいいくつかの画像にOCRをやっていますそのページ番号。一つのしゃっくりテキストからページ番号を検索/抽出する方法は?
Page 1 of 35
Page 1-35
Page 35
プラスPage
も小文字page
にすることができすなわち、ページ番号の形式にばらつきがあるということです。私が探しているのは、正規表現を使ってページからこれを抽出する一般的な方法です。コンパイルされたバージョンは、それぞれのケースで異なるものよりも速くなるので、正規表現で扱えると素晴らしいでしょう。 おかげ
それは良いチームメイトに動作します。扱われず、同定される症例はほとんどない。すなわち。 "ページ35 6663 24"、 "34ページO"、 "2 F Oページ" –
ここhttps://regex101.com/r/TEc4Hx/4 –
はい私がやってみます。私が言っていることは、これらを抽出すべきではないということです。単一の数字のページ番号はそれの後ろにスペースを持っていません。 "page 35 6663 24"のように "page 35"と2つのページ番号、 "ページo f 2"は最初に番号を探すべきです。 –