私は主に英語の文字と句読点に興味があります。英語のUTF-8文字の完全なリストはどこで入手できますか?
私はテストデータのために必要なので、APIがどのように異なる文字を扱うかをエミュレートすることができます。
PythonまたはPHPを使用して生成できますか?あなたのpythonの文字列モジュールをチェックアウトする場合があります
私は主に英語の文字と句読点に興味があります。英語のUTF-8文字の完全なリストはどこで入手できますか?
私はテストデータのために必要なので、APIがどのように異なる文字を扱うかをエミュレートすることができます。
PythonまたはPHPを使用して生成できますか?あなたのpythonの文字列モジュールをチェックアウトする場合があります
英語は「英語」ですか?それは辞書にあります。しかし、それは確かに私の目にフランス語に見えます。 –
すてきな1つ - お互いの欠点を補うような2つのリストのリスト - ありがとう! – significance
PMC Open Accessコレクションの非ASCIIコードポイントの頻度を示す[スライド4と5の2つのテーブル](http://training.perl.com/OSCON2011/gbu.html)を見ると、英文の科学テキストは、文字だけでなく、句読点、記号、および「スタイリング」のスペースを含む膨大な量のUnicodeを使用していることがわかります。 – tchrist
、それはそれらのデータといくつかの有用なデータ構造を持っている:
言語/使用状況によって破壊便利な対話型テーブルhereがあります
英語ではアクセントを含む他の言語の単語やフレーズを借用していますが、外国語は英語のテキストに埋め込まれている場合があります。そしてμTorrentの名前で)、ちょうど少数の名前を挙げるに過ぎない。私はあなたのテストからこれらのケースを除外することであなたが得たいと思うものがよく分かりません。 –
私は実際にギリシャ文字、ラテンアクセントなどについて考えていなかった - 良い叫び声! – significance
非常に大きなPubMed Open Accessコレクションでいくつかのコーパス分析を実行しました。これらの英語のテキストで使用されている非ASCII Unicodeコードポイントには驚かされます。最も頻繁に発生する7つは、「EN DASH」、「NO-BREAK SPACE」、「PLUS-MINUS SIGN」、「MINUS SIGN」、「EM SPACE」、「GREEK SMALL LETTER MU」、「GREEK SMALL LETTER BETA」、 'GREEK SMALL LETTER ALPHA' - その順番で。 「アストラル・プレーンズ」からの驚くべき数のコード・ポイントに加えて、著者名にnonceを使用する非ラテン・スクリプトもあります。しかし、それは出版された科学論文の非常に技術的な生物医学テキストです。 – tchrist