web-scraping

    2

    5答えて

    私はhtmlからプレーンテキストを取得しています。どちらを選択すればいいですか?strip_tagsまたはsimplehtmldom平文の抽出? simplehtmldomの1人のプロが無効なhtmlをサポートしていますが、それだけで十分ですか?

    2

    1答えて

    Nokogiriを使用してウェブサイトを掻き集め、テーブルからフィールドを取得しようとすると問題に遭遇しています。私はselector gadgetを使ってテーブルのCSSセレクタを探しています。私はgovernment website that details information on motor carriersからデータを取得しています。 私はのようなルックスを使用しています方法:しかし

    2

    1答えて

    私は掻きたいURLのリストを持っています。 私は3つのレベルの各URLに行きたいですが、私は外部URLに行きたくありません - 私のスタートリストのドメイン内のリンクのみ。 私はちょうどいくつかのURLでこれをやりたければ、私はallowed_domainsのリストに簡単に入れると思います。 あなたが3000件のURLを取得するときしかし、allowed_domainsリストはScrapyが処理す

    3

    1答えて

    私は、複数のスレッドが同時にWebソースからスクレイプしたデータをデータベースに取り込む状況があります。スクレーパは、さまざまなソースから新しいデータを収集するために定期的に実行されます。 NHibernateを初めて使用していて、セッションの管理方法が完全にわからないのは初めてです。 各ワーカーが何をするかの例:ウェブソースから スクレイプエンティティA スクレイプAに関連する各エンティティB、

    0

    1答えて

    ウェブスクレーパーまたはハーベスターは、ウェブサイトからデータを取り出すソフトウェアです。 市場で入手可能なさまざまなソフトウェアパッケージを提案できれば、大変感謝しています。 彼らはAJAXのようにビルドされたウェブサイトを動的に収穫できる必要があります。

    0

    3答えて

    私は常に動的データを更新しているWebページをポーリングし、そのデータを取得したいと思います。私は1秒ごとにページ全体をリロードしたくありません。ページをリロードせずにそのデータを取得する方法はありますか? 私はデモ用のコンソールアプリケーションとしてコーディングしています。 多くの感謝!しかし、それはこの日付を設定するには、サーバーまで完全だ... HttpWebResponse.LastMod

    0

    1答えて

    私のプログラムのダウンロードマネージャを作成しようとしています。しかし、このコードを実行すると、メッセージボックスに「ダウンロードの開始」と表示されますが、それはそれです。ダウンロードしたファイルやプログレスバーの変更がありませんか?なぜ誰が知っていますか? Public Class frmDownloader Private Sub Button1_Click(ByVal sende

    2

    1答えて

    私は、MechanizeライブラリでRuby on Railsを使用してストアウェブサイトをスクラップしています。問題は何度も私が特定の要素をクロールできないことです。しかし、私はサイトで「ソースを見る」ときにこれを見ることができます。 たとえば、ウォルマートのカテゴリ(この場合、「健康」である)は不可能です。これは動的にHTML(javascriptなど)が作成されているためですこれを掻くために

    0

    3答えて

    リモートサーバからプログラムでいくつかのファイルをダウンロードしたいとします。あなたはVB、VB.NET、Javaの、またはPHPのコード・スニペットを書くことができた場合は 私は自分で休息を解決しようとすることができます。 サンプルファイルアドレス: www.example.com/file1.pdf www.example.com/file2.pdf www.example.com/file%

    1

    2答えて

    多くの外部のウェブサイトでニュースサービスを使用する最も良い方法は何ですか?私は外部のウェブサイトがニュースを表示するために私の機能のいくつかを使用できるようにしたい。何を指示してるんですか?