私は、PDFからHTMLへのOCR変換を行ったドキュメントをいくつか持っています。そのため、コンバーターがうんざりになる(つまり、エリプスなど)、無作為なユニコードの句読点がたくさんあります。彼らはまた正しく非英語の束を持っていますが、éやロシア語の文字のようなアルファベットの文字もあります。Unicode非アルファベット文字に一致する方法はありますか?
ユニコードのアルファベット文字に一致する正規表現を作る方法はありますか?どんな言語でも)?または、アルファベット以外の文字にのみ一致するものはありますか?いずれかが本当に有益ですばらしいでしょう。 Perlを使用しています。ありがとう!
同様に、 '\ P'を使用して、特定のプロパティを持つ文字* not *と一致させることができます(' \ P {L} 'は文字以外の文字と一致します)。 –
いくつかのコードポイントを省略した文字コードを使用できますか? \ p {P}のようにピリオドやカンマを省略しますか?その否定は私にとって完璧なものになるでしょう。 – Eli