データが英語か中国語かを判断することはできますか?データが英語か中国語かを判断できますか?
3
A
答えて
7
これは、たとえば統計的方法を使用して可能です。英語は非常に特徴的な文字の分布を持ち、別のキャラクタ(レベル1モデルと呼ばれる)の後に登場するキャラクタの特徴的な分布を持っています。
eは、最も一般的なシンボルである場合、言語は、ヨーロッパ原産のない何かであるということはほとんどありません。
Unicode文字の値(必要に応じて文字セット間の変換)を調べることによって、そのような区別をするのはかなり簡単です(しかし、100%信頼性がないかもしれません)。 127より大きいUnicode値を持つ文字がある場合、英語はややありそうではありません(ただし、€のようなシンボルがあります)。
数千のUnicode値を持つ文字が多数ある場合、東アジア言語はますます多くなり、65535を超えるコードは中国語であることが保証されます。
5
私の考えは、Unicodeテーブルの文字の平均位置を計算することです。中国語文字はASCIIの後に配置されているため(たとえば値127の後)、テキストが英語か中国語かを簡単に判断できます。
編集:基本的に同じDamonが追加されました。 > _>
関連する問題
- 1. 単語が英語かどうかを判断するアルゴリズム?
- 2. 中国語フォームデータを英語に変換しますか?
- 3. 英語から中国語へのアラインメントデータの取得
- 4. ユーザーが簡体字または繁体字中国語を好きかどうかを判断する方法
- 5. Python NLP英国英語vsアメリカ英語
- 6. GoogleマップでGoogle Chromeブラウザの英語(英語)で外国人の国を表示できますか?
- 7. 中国語 - 英語(またはその逆)辞書APIはありますか?
- 8. 英語と中国語のスイングアプレットメニュー項目の国際化 - 例?
- 9. Excelで英語のテキストを中国語から分離/フィルタする方法
- 10. 中国語から英語へのIBM Watson Language Translation APIに問題がある
- 11. 英語以外の外国語の変数名は使用できますか?
- 12. ローカライズ:中国語テキストに英語のテキストを変換する
- 13. 中国語の日付を英語に変換する
- 14. itunesconnectで英語の英国言語を削除できません
- 15. 単語が有効な英語の単語であるかどうかを判断するためのアルゴリズム/データ構造
- 16. QtLocationとOpenStreetMap:英語以外の国でも英語のラベルを取得できますか?
- 17. iReportの中国語と英語の組み合わせ
- 18. Mobile Vision APIは中国語、日本語、韓国語を検出できますか?
- 19. 韓国語、中国語、日本語、および英語の文字をMySQLの1つのテーブルに格納
- 20. コンパイラがC言語のリトルエンディアンかビッグエンディアンかを判断
- 21. Microsoftチャットボット(Node.jsとC#)はWeChatの統合を中国語と英語でサポートしていますか?
- 22. 英国/アメリカ英語の変換
- 23. 英語をヒンディー語に翻訳できますか?
- 24. 英語の環境で中国語の文字列を比較するには?
- 25. 複数言語サポート(英語、フランス語、中国語など)でPHPアプリケーションを構築する方法
- 26. 異なる言語のJavaで文字列をレンダリングする英語、中国語、インド語
- 27. Javascriptのドイツ語と中国語の正規表現ですか?
- 28. AndroidでCJK言語(中国語、日本語、韓国語)を区別する
- 29. IE中国語
- 30. 中国語コード
私たちが言語を識別/区別するすべての方法を考えるのは非常に面白いです。あなたは、同じスコアで始まり、Damonのルールに従って追加または減算してから、計算された可能性でリストの一番上を選ぶことを心配しているすべての言語から始めることができます。 –
これを論理的に拡張するには、標準の1次算術(またはハフマン)圧縮器を使用して英語のテキストを圧縮し、モデルを保存します。次に、同じコンプレッサーで未知のテキストを圧縮します。それが英語の場合、モデル間の合計誤差はゼロに近づくはずです(または、モデルをベクトルと見なすならば、ドット積は1に近くなければなりません)。 – Damon