web-crawler

0熱

1答えて

私は最初のpython web crawlerを作成しようとしました（thenewbostonから学んでいます）。私はすべてのエラーメッセージを取得いけない、だけでなく、何も出力.. はHERESに私のコード： import requests from bs4 import BeautifulSoup def sportpoint_spider(max_pages): page =

0熱

1答えて

Javaクローラのcrawler4jを使用してクロールを一時停止および再開することはできますか？

クロールを再開可能に設定できることは既に知っています。ただし、再開可能な機能を使用してクロールプロセスを一時停止し、その後プログラムでクロールを再開することは可能ですか？例えば。私は正常にshutdownクローラのシャットダウン方法でクロールし、再開可能なパラメータをtrueに設定して、再びクロールを開始できます。再開可能パラメータの主な目的は、クローラの偶発的なクラッシュを処理するためです。

0熱

1答えて

ウィンドウでNutchを使用する

Nutchでクロールする際に問題が発生しています。私はhereからチュートリアルに従ってもエラーで： " /home/apache-nutch-2.3.1/runtime/local/bin/nutch inject urls/seed.txt -crawlId TestCrawl Failed with exit value 1. " 誰もがウィンドウに正しくNutchの使用方法を参照す

0熱

1答えて

python print（）は私が期待しているものを出力しません

私は1つの関数で小さなWebクローラーを作った、upso_finalです。私がprint(upso_final())の場合、タイトル、住所、電話番号を含む15のリストが得られます。しかし、タイトルのみを印刷したいので、変数のタイトルをグローバル文字列にしました。私がそれを印刷するとき、私は唯一のタイトル、実行の最後の1つを得る。私は15タイトルすべてを手に入れたい。 from __future_

0熱

1答えて

WindowsのOSのpython3.xでBeutifulsoup4を入手できない中国語の文字

私のpythonのバージョンは3.6.3です。私のOSはWIN7です。私は今、以下のウェブサイトから中国語の文字を抽出するに取り組んでいます： https://crl.ptopenlab.com:8800/poem/show?3&%25E5%258F%2591%25E7%2594%259F&A718FCB2-CE47-4649-BB46-0E09B169FD59 私は抽出をしたい要素は、以下のH

0熱

1答えて

スパイダー（詐欺）からURLを取得できません

私は掻き集めるURLの数をSitemapSpiderに取得しようとしています。私はstart_requestsメソッドをオーバーライドしようとしましたが、それは0を出力します。私は何千ものURLを含むsitemap_urlを持っています。私はこれらのURLの数を取得したい。これは私が試みたものですが、サイトマップのURLはstart_urlsにないとします。 class MainSpider(S

0熱

2答えて

beautifulSoup、Pythonを使用してh3タグとdivタグのテキストをスクラビング

私はPython、BeautifulSoup、Seleniumなどの経験はありませんが、Webサイトからデータをスクレイプしてcsvファイルとして保存したいと思っています。必要なデータのサンプルは、次のようにコード化されています（1行のデータ）。 <div class="box effect"> <div class="row"> <div class="col-lg-10"> <

-2熱

1答えて

フォームを複数のリダイレクトで送信する

ウェブサイトからデータを取得しようとしています。フォームを送信すると、自動的に最終結果ページにリダイレクトされるように設定されている読み込みページにリダイレクトされます。問題は、クローラが読み込みページのデータのみを取得し、実際に必要な最終結果ページに完全には移動しないことです。誰かが私にそれを達成する方法を教えてもらえますか？可能でない場合は、これを行うための代替手段が何であるか？