0
私はいくつかのWebドメイン(数万)を解析して、それらが英語の単語を含んでいるかどうかを調べようとしています。英語の単語が文字列に存在するかどうかを調べるには
tldextract
でドメインの主要部分を取得するためにドメインを解析するのは簡単ですし、enchant
を使用して英語の辞書に存在するかどうかを確認しようとしました。
ドメインを複数の単語に分割してチェックする方法がわかりません。つまり、latimes
は偽として返しますが、times
はTrueとして返します。
文字列に英語の単語が含まれているかどうかはっきりとわかりますか?
ありがとうございます!
これは解決しようとしている問題を解決する最良の方法ではありません。多くの場合、常に曖昧な場合があります –
提案はありますか?私は英語とスペイン語のドメインのリストを2つのリストに分けようとしています。 – Mojo713
whoisと一緒に見てみましょうか? –