2011-01-30 9 views
5

AlphabeticのようなUnicode文字の範囲のリストがhttp://www.unicode.org/Public/5.1.0/ucd/UCD.html#Alphabeticで定義されている必要があります。しかし、どのようにそれらを検索しても、Unicode文字データベースでそれらを見つけることはできません。誰かが指定したUnicodeプロパティを持つ文字の一覧や検索機能を提供できますか?Unicodeのアルファベット文字のリスト

+0

私の答えを見ると、[unicharsのスクリプトを使って、指定されたUnicodeプロパティを持つ文字の検索機能が提供されています](http://training.perl.com/scripts/unichars)。楽しい! – tchrist

答えて

2

派生コアのプロパティは、他のプロパティから計算できます。生成された:

アルファベットプロパティは次のように定義された呂+のL1 + Ltは+のLm +ロー+ N1を+ Other_Alphabetic

だから、あなたは呂、L1を、LT、Lmと、ロー内のすべての文字を取る場合、 Nl、およびOther_Alphabeticプロパティのすべての文字を使用すると、アルファベットの文字が表示されます。あなたのソースから

2

引用:Generated from: Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic

これらた略語はhereを説明しているように見えます。

11

ユニコード文字データベースは、配布物のすべてのテキストファイルで構成されています。それは以前と同じように単なるファイルではありません。

アルファベットのプロパティは派生プロパティです。

実際には、このためにコードポイント範囲を使用したくありません。 プロパティを正しく使用する場合はです。それはあまりにも多くあるからです。私たちは、他の16のアストラルプレーンを含める場合は、今私たちは14時だ

$ unichars '\p{Alphabetic}' | wc -l 
    10052 

unichars script使用して、我々はないカウント漢やハングルだけで基本多言語面でより1万一人であることを学びます千:

$ unichars -a '\p{Alphabetic}' | wc -l 
    14736 

そして、我々は実際にはアルファベットプロパティはありません、我々はちょうど百何千ものコード・ポイントのオフに屋根を吹いた漢とハングルを、含まれている場合:

$ unichars -ua '\p{Alphabetic}' | wc -l 
    101539 

ではなく、がコードポイントの範囲を使用してこれらを具体的に列挙したいと思います。その道が狂っている。

ちなみに、unichars scriptが便利な場合は となり、、おそらくuninames scriptが好きかもしれません。

+1

あなたのスクリプトが本当に気に入りました!彼らは私が持っていた[SOの質問](http://stackoverflow.com/questions/6246651/generate-uri-friendly-unicode-code-points-from-integer-counter)を解決するために非常に便利です。それらを作ることに感謝します。質問:上記の最後のコマンド( 'unichars -ua '\ p {Alphabetic}' | wc -l')を実行したとき、101539の代わりに94332行が得られました。 –

+1

@Abe:あなたはまだUnicode 6.0.0を実行していません。実行中のPerlのバージョンは何ですか? 'corelist -a Unicode'はPerlバージョンとUnicodeバージョンの組み合わせを表示します。ところで、私は今、私の[Unicode toolchest](http://training.perl.com/scripts/)で、さらに詳しいことがあります。 – tchrist

+0

ああ、私はまだPerl 5を動かしています。間違いなくPerlをアップグレードし、新しいツールをチェックします。ありがとう! –

1

いい検索インターフェイスを提供するUniViewウェブアプリケーションが見つかりました。 (ローカルのチェックを外した状態で)Letterプロパティを検索すると、14723の結果が得られます。

+1

LetterプロパティはAlphabeticプロパティと同じではありません。 Unicode 6.0.0には、Alphabeticプロパティでは101539コードポイントがありますが、文字プロパティでは100520しかありません。文字数は1000文字を超えます。ところで、あなたの14kの答えは桁違いです。 – tchrist

+0

あなたはそうです。ところで、私はUniViewツールがHanとHangulを考慮に入れないと思う。 – thSoft

関連する問題