web-scraping

2熱

5答えて

php：HTMLからプレーンテキストを取得する - simplehtmldomまたはphp strip_tags？

私はhtmlからプレーンテキストを取得しています。どちらを選択すればいいですか？strip_tagsまたはsimplehtmldom平文の抽出？ simplehtmldomの1人のプロが無効なhtmlをサポートしていますが、それだけで十分ですか？

2熱

1答えて

Nokogiriでウェブサイトを掻き立てる

Nokogiriを使用してウェブサイトを掻き集め、テーブルからフィールドを取得しようとすると問題に遭遇しています。私はselector gadgetを使ってテーブルのCSSセレクタを探しています。私はgovernment website that details information on motor carriersからデータを取得しています。私はのようなルックスを使用しています方法：しかし

2熱

1答えて

治療中の内部リンクのみを許可する

私は掻きたいURLのリストを持っています。私は3つのレベルの各URLに行きたいですが、私は外部URLに行きたくありません - 私のスタートリストのドメイン内のリンクのみ。私はちょうどいくつかのURLでこれをやりたければ、私はallowed_domainsのリストに簡単に入れると思います。あなたが3000件のURLを取得するときしかし、allowed_domainsリストはScrapyが処理す

3熱

1答えて

NHibernateマルチスレッドセッション管理

私は、複数のスレッドが同時にWebソースからスクレイプしたデータをデータベースに取り込む状況があります。スクレーパは、さまざまなソースから新しいデータを収集するために定期的に実行されます。 NHibernateを初めて使用していて、セッションの管理方法が完全にわからないのは初めてです。各ワーカーが何をするかの例：ウェブソースからスクレイプエンティティA スクレイプAに関連する各エンティティB、

0熱

1答えて

ウェブスクレーパーおよびハーベスター

ウェブスクレーパーまたはハーベスターは、ウェブサイトからデータを取り出すソフトウェアです。市場で入手可能なさまざまなソフトウェアパッケージを提案できれば、大変感謝しています。彼らはAJAXのようにビルドされたウェブサイトを動的に収穫できる必要があります。

0熱

3答えて

C＃.NETでは、ajax Webページから動的データをスクラップする方法はありますか？

私は常に動的データを更新しているWebページをポーリングし、そのデータを取得したいと思います。私は1秒ごとにページ全体をリロードしたくありません。ページをリロードせずにそのデータを取得する方法はありますか？私はデモ用のコンソールアプリケーションとしてコーディングしています。多くの感謝！しかし、それはこの日付を設定するには、サーバーまで完全だ... HttpWebResponse.LastMod

0熱

1答えて

VB.net Webclient.DownloadFileAsyncがダウンロードされない

私のプログラムのダウンロードマネージャを作成しようとしています。しかし、このコードを実行すると、メッセージボックスに「ダウンロードの開始」と表示されますが、それはそれです。ダウンロードしたファイルやプログレスバーの変更がありませんか？なぜ誰が知っていますか？ Public Class frmDownloader Private Sub Button1_Click(ByVal sende

2熱

1答えて

ベストウエッブスクラップRuby on Railsライブラリ（JavaScriptによって生成されるダイナミックHTMLを扱う）

私は、MechanizeライブラリでRuby on Railsを使用してストアウェブサイトをスクラップしています。問題は何度も私が特定の要素をクロールできないことです。しかし、私はサイトで「ソースを見る」ときにこれを見ることができます。たとえば、ウォルマートのカテゴリ（この場合、「健康」である）は不可能です。これは動的にHTML（javascriptなど）が作成されているためですこれを掻くために

0熱

3答えて

ファイルをディスクにダウンロードして保存する

リモートサーバからプログラムでいくつかのファイルをダウンロードしたいとします。あなたはVB、VB.NET、Javaの、またはPHPのコード・スニペットを書くことができた場合は私は自分で休息を解決しようとすることができます。サンプルファイルアドレス： www.example.com/file1.pdf www.example.com/file2.pdf www.example.com/file%

1熱

2答えて

PHPのニュースサービス

多くの外部のウェブサイトでニュースサービスを使用する最も良い方法は何ですか？私は外部のウェブサイトがニュースを表示するために私の機能のいくつかを使用できるようにしたい。何を指示してるんですか？