web-scraping

    1

    2答えて

    私はキューからのダウンロードを行うワーカースレッドとインデックスファイルをダウンロードするメインスレッド(ページあたり50エントリ)を持つWebサイトをスクラップするプログラム(コマンドライン/ターミナル)を持っています。どのようにして割り込み(CTRL + Cまたは自分自身で定義された割り込み)をプログラムがチェックできるようにすることができますか?そのような割り込みを受け取ると、最初にクリーン

    0

    2答えて

    複数のWindows/IIS/.Netサイト(サーバごとに30以上のサイト)を実行します。各サイトは、設定を含む構成ファイルを介して個々の顧客向けにカスタマイズされています。 特定の設定(または設定)のために特定のサーバー上のすべての設定ファイルを「grep」し、見栄えの良いWebページ表示用の値を返す小さなツールを書くことが任されています。多くのグループは多くの時間を節約できます。特に、ほとんど

    0

    1答えて

    ウェブスキャナを構築する必要があります。 一部のデータが変更された場合、このWebアプリケーションは任意のWebページをスキャンして結果を保存する必要があります。 キーワードを検索し、その値が変更/変更されているかどうかを調べる必要があります。 私はこのアプリケーションをasp.net mvcで作成します。 ウェブページをスキャンするにはどうすればよいですか?私は自分のページに私がスキャンするペー

    0

    1答えて

    「古い投稿」を再帰的にクリックすると表示されるテキストを含め、Facebookの壁紙全体に優雅な方法を探しています - 友人の投稿やアクティビティのような追加データや無関係なデータはありません"新しい友達"、 "関係"など 私はFacebookのAPIを扱うことを伴わない方法が好きですが、apiでこれを行うためのcovnvenientな方法があればそれについて聞きたいです同じように。

    0

    5答えて

    私は、Googleを介して検索する際に検索したすべてのURLをスクラップしたいと思います。私はスクリプトを作ろうとしましたが、Googleはそれを気に入らず、Cookieのサポートとキャプチャを追加するのは面倒です。私は、Googleの検索ページを閲覧しているときに、ページ上のすべてのURLを単純に.txtファイルに入れたり、何らかの形で保存したりすることを探しています。 これを行う何かを知ってい

    0

    3答えて

    を見つけたことはありません2番目のシナリオでtextを取得する方法を理解します。私はいくつかの方法を試みたが、ここで私は以下の動作するはずと思ったものだしました: def html = slurper.parse(reader) Collection<NodeChild> nodes = html.'**'.findAll { it.name() == 'span' && [email prot

    -1

    2答えて

    APIをクロールしてxmlまたはcsvファイルに解析するWebcrawlerを探しています。 私はいくつかのAPIフィードからのリクエストで遊んでいましたが、手動でやりとりしなければならないとうれしく思います。後で自動的に編集してデータを編集する必要があります。 たとえば、eventfulというサイトのAPIを使用して、「?xmlフィード?」をリクエストできます。データ http://api.ev

    1

    3答えて

    phpのcURLを推測していますが、URLのIDを使用するウェブページから情報を取得するためのループを作成するには、 ?ProductId = 103)約1200ページあります。私は各ページの9番目のスパンのinnerHTMLを見つける必要があります。この情報は、このサイトの将来の廃止のためにmySQLテーブル(id-> value)に格納されます。

    3

    5答えて

    私はPerlを学ぶことに興味があります。私はLearning Perlの書籍とcpanのウェブサイトを参考にしています。 私は学んだことを何でも適用するために、Perlを使っていくつかのウェブ/テキストスクレイピングアプリケーションをやりたいと思っています。 まず、いくつかの良いオプションを教えてください。 (これは宿題ではありません。私は基本的なPerlの機能を利用役立つPerlで何かをしたい)

    1

    2答えて

    私は最近、スクラピーで作業を始めました。私はいくつかのページ(約50)に分割された大きなリストからいくつかの情報を収集しようとしています。 start_urlsの最初のページを含む最初のページから、私が望むものを簡単に抽出できます。しかし、私はこれらの50ページにすべてのリンクをこのリストに追加したくありません。私はよりダイナミックな方法が必要です。誰かが私が繰り返しどのようにWebページを擦るこ