web-scraping

    0

    2答えて

    私はウェブからページをダウンロードするためにpython urllib2を使用しています。私はuser_agentなどを使用していません。私はサンプルエラー以下になっています。誰かが私にそれらを避ける簡単な方法を教えてくれますか? http://www.rottentomatoes.com/m/foxy_brown/ The server couldn't fulfill the request

    69

    6答えて

    クロールとWebスクレイピングの違いはありますか? 違いがある場合は、カスタマイズされた検索エンジンで後で使用するためのデータベースを提供するために、いくつかのWebデータを収集するための最良の方法は何ですか?

    1

    1答えて

    私はこれにはかなり新しいので、他に誰にも質問する必要はありません。私はいくつかのWeb廃棄ソフトウェアのためにプログラムでWebページ(C#)にアクセスしようとしています。私はHttpWebResponseとHttpWebRequestクラスを使ってWebページフォームからログインを行うプロセスを理解しましたが、2段階のログイン手順を持つWebサイトがあります。 最初のログインはポップアップを介し

    9

    5答えて

    ショッピング比較エンジンを構築しており、毎日のデータ収集プロセスを実行するためにクロールエンジンを構築する必要があります。 私はC#でクローラを構築することに決めました。私はHttpWebRequest/HttpWebResponseクラスについて多くの悪い経験をしており、大きなクロールではバグが多く、不安定であることが知られています。だから、私はそれらの上に構築しないことに決めました。フレームワ

    7

    3答えて

    Mozenda Screen Scraperはどのようにコードされていますか? http://www.mozenda.com/screen-scraper 私は、ユーザーが彼がスクラップしたいフィールドを選択することができ、ブラウザを示し、それはそれのうちクロールスクリプトを作成します。 クロールスクリプトの生成部分は私には分かりますが、ユーザーがブラウザで行っているユーザーの操作を記録しています

    11

    2答えて

    JavaScriptを適切にサポートしており、非常に優れたパフォーマンスを提供する、.NETサポートを備えた有償/無料のWebスクレイピングライブラリを探しています。 独自のブラウザエンジンと、それ自身のJSコンパイラも必要です。 製品がウェブスクレーピング専用に開発されている場合は、私たちにとって大きなプラスになります。 私はWatinとSeleniumを試しましたが、両方とも私たちが望まないブ

    2

    4答えて

    リンクを取ってリンクされたページのHTMLを解析して、タイトルや他のいくつかのデータを解析して、Facebook上の何かにリンクするときのような簡単な説明のようなスクリプトを書く必要があります。 ユーザーがサイトにリンクを追加すると呼び出されるため、クライアントがサイトを起動したときにヒット数が適切に表示されます。 サーバーサイドでこれをPHPで行うべきか、エンドユーザー側でJavascriptで

    0

    3答えて

    トピックに関する質問があります。 誰かがスクレーパーを書くために、次の言語を使用することの利点と欠点を説明することができます: のJava/Groovyの Perlの ペソ セレン パイソン 私はまた、掻き取り中にどんな種類の問題に直面することが予想されているのだろうと思っています。たとえば、私は断片のアイデンティティーを見つけ、それに対処する方法をまだ見つけていません。 (私はhtmlunitを

    1

    2答えて

    iframeに別のページを読み込んでいるページがあります。呼び出されているページは私のサイトから呼び出されたものを動的に処理するので、実際に直接呼び出すことはできません。同じページを呼び出して同じ動的コードを2回実行するのは非効率です。 私がしたいのは、自分のページがロードされ、それを掻き立てて、特定の独特のものを解析し、解析された結果を処理することです。私は構文解析の結果を解析して処理する方法を

    2

    4答えて

    私はこのリンクをこすりしようとしている:https://www.bu.edu/link/bin/uiscgi_studentlink/1293403322?College=SMG&Dept=AC&Course=222&Section=C1&Subject=ACCT & MtgDay = & MtgTime = &のModuleName = univschr.pl & KeySem = 20114