私はApache NutchとSolrでのクロールに慣れていましたが、HTTPとHTTPSのリンクはSolrのクエリ結果で利用可能ですが、content
フィールドの磁石リンクは利用できません。私はApache NutchとSolrでマグネットリンクをクロールして、Solrの検索結果で利用できるようにする方法はありますか?
-^(file|ftp|mailto):
# skip image and other suffixes we can't yet parse
# for a more extensive coverage use the urlfilter-suffix plugin
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$
# skip URLs containing certain characters as probable queries, etc.
#-[?*[email protected]=]
# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
-.*(/[^/]+)/[^/]+\1/[^/]+\1/
# for linuxtracker.org
+^https?://*linuxtracker.org/(.+)*$
#+^magnet:\?xt=(.+)*$
# causes magnet links to be ignored/not appear in content field
+^magnet:*$
# reject anything else
-.
するconf/regex-urlfilter.txt
を調整し、マグネットリンクはcontent
内部に含まれない理由は表示されません。ご覧のとおり、私はhttp://linuxtracker.orgを使ってこれを調べています。マグネットリンクマグネット:?xt = urn:btih:ETDW2XT7HJ2Y6B4Y5G2YSXGC5GWJPF6P on http://linuxtracker.org/?page=torrent-details&id=24c76d5e7f3a758f0798e9b5895cc2e9ac9797cf。
solr = pysolr.Solr(solr_core_url, timeout=10)
results = solr.search('*:*')
for result in results:
print(result)
私はUbuntuの17.04でApache Nutchのリリース-1.13から73を-g9446b1e1とSolrの6.6.1を使用しています:pysolr
に次のようにSolrを照会する場合がbin/crawl
としている磁石のリンクをクロールした後
。
マグネットリンクをクロールするとどうなるでしょうか? – MatsLindh
目的はサイト/ドメイン上のすべてのマグネットリンクのリストを持ってそれを使って何かをすることです。 –