まあ、私はこの質問が複数回尋ねられていたことを知っていましたが、まだ "利用可能な"解決策で解決できませんでした。私の文章をどのように検出するかについてのさらなるアイデアやコンセプトがあることを希望するのは、英語のpythonです。可能な解決策:(ルビーではないのpythonで:/)Pythonで英語のテキストを検出する
- 言語検出器
- GoogleがAPI v2の(もはや自由を、翻訳しない私は学術目的のために、このプロジェクトをやっている間、20ドルの月を支払わなければなりません。礼儀制限:。??0文字/日)
- Python言語の識別(ソースコードが見つからない、リンクの下でautomatic-language-identification)
- Enchant(それはのpython 2.7のためではない私は、Pythonに新たなんだ、任意のガイドIこれが私が必要とするものになると賭ける)
- NLTKからのワードネットなぜ "wordnet.synsets"が欠けていて、 "wordnet.Synset"だけが利用可能であるのか分かりません。ソリューションのサンプルコードは私にとってはうまくいきませんT_T、おそらくバージョン管理の問題でしょうか?)
- 英語の単語がリストに格納され、単語が存在するかどうか比較しています(ちなみに、あなたはそれを知っていました:最後にしようとした一連の後P)
WORKING SOLUTION
を、以下では実用的なソリューションは、上記のリストに(代替)である
- WiktイニシャルAPI(Urllib2とsimplejsonを使用して解析します)。キーが-1の場合、単語が存在しないことを意味します。それ以外は英語です。もちろん、Twitterでの使用のために、@#、?!のような特別な文字に単語を前処理しなければなりません。キーの検索方法は、ここを参照してください。 Simplejson and random key value)
- (脆弱性:20文字未満の長さの文章でPyEnchantをインストールする必要がある場合、またはUNKNOWNを返してください)PyEnchantはPython 2.7をサポートしていませんが、インストールできないことを意味します。 20未満の文字文)に取り組んで
参照
- Detecting whether or not text is English (in bulk)
- How to check if a word is an English word with Python?
- How to retrieve Wiktionary word content?
興味深い質問です。単語をリストに格納することの改善は、単語をセットまたは辞書に格納することです。リストアプローチはO(n)であり、他のアプローチはO(1)である。 – Octipi
解決策を質問に入れず、回答として投稿してください。答えがあればあなた自身の質問に答えてください –