web-scraping

    1

    3答えて

    私はウェブサイトからデータをスクラップする個人的なアプリを書いています。現在、ページを分析する前に全ページを読み込み、これらのページは300〜600 KiBの範囲で表示できます。私がテストした10ページは合計で最大4 MiBです。ページには動的コンテンツが含まれているため、データがどこから始まるのか正確にはわかりません。デリミタがあるので、データを一度にどこにスキャンしたのか分かります。必要な部分

    0

    1答えて

    Googleブック(たとえば、各書籍のタグ)のようなウェブサイトからデータをエクスポートするアプリケーションを作成したいと考えています。それを行うための最良の言語か優先言語か、そしてどのように起動するのか教えていただけますか?私にいくつかのチュートリアルの本と道を見せてください。

    6

    3答えて

    Pythonで書かれたオープンソースのWebクローラー(スパイダー/ボット)を作成したいと思います。リンクを見つけて追跡し、メタタグとメタ記述、ウェブページのタイトルとウェブページのURLを収集し、すべてのデータをMySQLデータベースに入れる必要があります。 誰でも私を助けるオープンソースのスクリプトを知っていますか?また、誰かが私が何をすべきかについての指針を私に与えることができれば、それらは

    6

    1答えて

    私はPythonを初めて使いましたので、これは初心者の質問です。 私はWebスクラップを含むプログラムを構築しようとしています。Python 3がPython 2.xシリーズよりもはるかに少ないWebスクレイピングモジュールしか持たないようです。 美しいスープ、機械化、および治療(私におすすめの3つのモジュール)は、すべて互換性がないようです。このフォーラム上の誰のpython 3 任意の提案をい

    0

    1答えて

    私は、aspxページにtxtFirstNameとtxtLastNameを含む非常に単純なWebフォームを持っています。私が達成しようとしているのは、プログラムでフォームを送信し、フォームに送信された値を抽出することです。 この抽出されたデータを使って、Webスクレイピング(収穫)を行い、別のページに表示する必要があります。

    0

    2答えて

    最近、Java Jsoupライブラリを使って、Webスクラップ(ウェブサイトからデータを取り出す)をよりよく理解しようとしています。しかし、私がまとめることができたコードは、時間の一部の機能だけであるように思えます。問題が自分のコードにあるのですか、または特定のサイトでWebスクレイピングを停止する手段がある可能性がありますか?ここで は、すべての「魔法」を行いクラスです: import java

    1

    1答えて

    私はiMacroスクリプティングの世界では非常に新しいので、(私が思っているように)非常に単純なデータスクレイプを得るのが難しいです。 私がスクラップしたいサイトは、インデックスページ(各新しい行が製品ページへのハイパーリンクであるテーブル)と製品ページ(毎回同じフォーマット)で構成されています。私は(すなわち。POS1テーブル行)ページがロードされたら は、常にそれぞれの同じ場所になります(10

    0

    1答えて

    phpQueryライブラリ(http://code.google.com/p/phpquery/)を使用してWebページを解析していますが、Ajaxを使用してすべてのコンテンツを表示する問題を見つけました。 私は、IFRAME(作品以下のコード)にして、それをロードする場合、私はすべてのコンテンツを得ることができることをしてきました: $temp = phpQuery::newDocumentHT

    7

    3答えて

    私はウェブクローラーで作業しています。瞬間、私はコンテンツ全体を掻き集めて正規表現を使って<meta>, <script>, <style>と他のタグを取り除き、本文の内容を取得します。 しかし、私はパフォーマンスを最適化しようとしていますが、ページの<body>だけを掻き取る方法があるのでしょうか? Page_Loadから namespace WebScrapper { public

    0

    1答えて

    私はPython Mechanizeを使用してデータをスクラップする方法を学んでいます。ほとんどの場合、動作していますが、私が実行した問題の1つは、「submit」ボタンを使用する代わりに、私がアップデートを見ている.jspページが動的に更新されていることです。 1)私は、ページ上で設定する必要があり、複数のSelectControlsがあります 私は2つの関連する結果として問題に実行していますよ