2016-08-24 13 views
-1

私はウェブスクレイピングには新しく、これまでのところ、Pythonの美しいスープを使用して基本的なHTMLページをスクラップする方法しか知りません。私が望むのは、このpageに関する情報を抽出することです。具体的には、私は JavaScriptのエフェクトを使用してページをスクラップする方法

  • 背景
  • 洞察プロジェクト
  • 現在の雇用主
  • しかし

    • 名(そのうちの700の周りに)すべての仲間から、次のデータを取得したいと思い、そのページはjavascriptによってレンダリングされ、mouseoverイベントが各フェローズの画像でトリガーされたときに、必要な情報が別のボックスとしてのみ表示されます。

      この場合のテキストの抽出方法は?あらゆる情報(書籍、ウェブリソース)は高く評価されます。可能であれば、Pythonソリューションが好まれます。どうもありがとう。

    +0

    私はサイト上でJavaScriptを無効にしていますが、ツールヒントは引き続き表示されます。コンテンツはそこにあります、それはちょうどCSS経由で隠されています。 –

    答えて

    0

    ウェブサイトのページソースを確認してください。

    情報はすでにDOM内に存在し、CSSを使用して非表示になっています。一見すると、JavaScriptのロジックはCSSの操作しか行っていないようです。

    CSSによって情報が隠されていても、Webスクレイピングツールを使用して情報をソースから削除することはできません。

    関連する問題