2017-10-20 6 views
0

私はいくつかのWebドメイン(数万)を解析して、それらが英語の単語を含んでいるかどうかを調べようとしています。英語の単語が文字列に存在するかどうかを調べるには

tldextractでドメインの主要部分を取得するためにドメインを解析するのは簡単ですし、enchantを使用して英語の辞書に存在するかどうかを確認しようとしました。

ドメインを複数の単語に分割してチェックする方法がわかりません。つまり、latimesは偽として返しますが、timesはTrueとして返します。

文字列に英語の単語が含まれているかどうかはっきりとわかりますか?

ありがとうございます!

+1

これは解決しようとしている問題を解決する最良の方法ではありません。多くの場合、常に曖昧な場合があります –

+0

提案はありますか?私は英語とスペイン語のドメインのリストを2つのリストに分けようとしています。 – Mojo713

+1

whoisと一緒に見てみましょうか? –

答えて

0

急いで行う必要がある場合を除き、文字列の最後にまたはの文字を切り落として、それが既知の単語かどうかを確認することができます。そうであれば、それを切り取り、繰り返す。例えば50k単語ごとに20文字、最悪の場合は1Mルックアップを行います。例えば、 5ミリ秒(毎回HDDを押す)、5000秒(約1.5時間)かかり、より良いアルゴリズムを思い付く時間よりも短くなります。

関連する問題