character-properties

5熱

4答えて

AlphabeticのようなUnicode文字の範囲のリストがhttp://www.unicode.org/Public/5.1.0/ucd/UCD.html#Alphabeticで定義されている必要があります。しかし、どのようにそれらを検索しても、Unicode文字データベースでそれらを見つけることはできません。誰かが指定したUnicodeプロパティを持つ文字の一覧や検索機能を提供できますか？

3熱

5答えて

ユニコード名の検証

ASCIIでは、名前を検証することはあまり難しくありません。すべての文字がアルファベット順であることを確認してください。しかし、Unicode（utf-8）はどうですか？指定した文字列にカンマやアンダースコア（ASCIIスコープ外）がないことを確認するにはどうすればよいですか？あなたはこの正規表現に対してそれをチェックして行くことができる、「名前」を定義する方法に応じて（理想的にはPython

7熱

2答えて

Unicode非アルファベット文字に一致する方法はありますか？

私は、PDFからHTMLへのOCR変換を行ったドキュメントをいくつか持っています。そのため、コンバーターがうんざりになる（つまり、エリプスなど）、無作為なユニコードの句読点がたくさんあります。彼らはまた正しく非英語の束を持っていますが、éやロシア語の文字のようなアルファベットの文字もあります。ユニコードのアルファベット文字に一致する正規表現を作る方法はありますか？どんな言語でも）？または、アルフ

10熱

8答えて

Python：単語境界でユニコード文字列を分割する

文字列を取得して140文字に短縮する必要があります。現在私がやっている： if len(tweet) > 140: tweet = re.sub(r"\s+", " ", tweet) #normalize space footer = "… " + utils.shorten_urls(post['url']) avail = 140 - len(footer)

4熱

2答えて

正規表現を使用してユニコードテキストを検索

ヒンディー語（Devanagri）（UTF-16）で書かれたファイルを検索すると、次の問題が発生しました。ファイルが含ま： त्रास最初の文字が 'त्र' त+्+र 今一方の複数のコードポイントであることततत जुगनींदनाहाबु 注'त'を検索すると、最初のチャットのπを含む4つのマッチが得られます。私はJavaを使用しています。はどのようにして、複数のコードポイントの文字の一

6熱

1答えて

マッチング大文字と小文字を区別Unicode文字列

私は、私は今、私はUnicode文字列に対して同じことをしたい re.compile(r"[a-z][A-Z]") ような何かを行うことができ、大文字に続いて小文字を一致させたいとしますつまり、 'aÅ'や 'yÜ'のようなものにマッチします。は re.compile(r"[a-z][A-Z]", re.UNICODE) をしようとしましたが、それは動作しません。手がかりはありますか？

0熱

1答えて

正規表現でのUnicodeおよびDB読書/おやすみ

を書く、私は現在、正規表現のマッチングに基づいてC＃での人間の言語のための非常に単純な字句analiserに取り組んでいます、と私は現在、その正規表現をspecifingの問題に直面していますターゲット言語のすべての句読記号と一致させることができます。また、すべての種類の空白にも一致する別の句読記号に一致させることができます。スタックオーバーフローと別のサイトでここを検索したところ、正規表現\p

7熱

2答えて

Javaで言語のUnicode文字を取得する

Javaにはどのような方法があるので、特定の言語（たとえばベンガル語またはアラビア語）のすべてのUnicode文字を取得できますか？

6熱

4答えて

特定のプロパティを持つすべてのUnicode文字のリストを取得するにはどうすればよいですか？

すべてのUnicode文字をループしないで、特定のプロパティを持つ文字のリストを取得するにはどうすればよいですか？特に、数字（つまり/\d/に一致する文字）のすべての文字のリストが必要です。私はUnicode::UCDを見てきました、そして、それは与えられた文字の特性を決定するのに便利ですが、そこからプロパティを持つリスト文字を得る方法はないようです。