1
私はそれぞれ100K個のURLを持ち、それぞれが正または負とマークされています。私はどんなタイプのURLが陽性に対応しているか見たいと思っていますか? (同様に否定的)類似のURLをグループ化する/共通のURLパターンを検索する(Python)
私はサブドメインをグループ化することから始め、最も一般的な正と負のサブドメインを特定しました。
ここで、正と負の比率が等しいサブドメインについては、さらに解剖してパターンを探します。パターン例:
http://www.clarin.com/politica/ (pattern: domain/section)
http://www.clarin.com/tema/manifestaciones.html (pattern: domain/tag/tag_name)
http://www.clarin.com/buscador?q=protesta (pattern: domain/search?=search_term)
リンクはclarin.comに限定されません。
このようなパターンを解明する方法についてのご意見はありますか?