2016-04-22 4 views
0

私はビデオをクロールするためにscrapyを使用しています。私はthis videoのブラウザのソースを使用して、変数'METADATA_LANGUAGE': 'no'。 scrapyとその拡張でこの値を抽出できますか、またはbeautifulsoup/htmlparserのようなライブラリを使ってhtmlをダウンロードして解析する必要があります。どのように私はスクラブでjavascriptの値を抽出することができます

+0

あなたはセレンでJavaScriptの表情によって生成されたコンテンツをしたい場合。それはブラウザを使用して最終的なレンダリングされたhtmlを取得します。このhtmlはスクレイピングのためにscrapyに戻すことができます。 – Steve

答えて

0

thisに基づいて、xpath/cssでスクリプトのテキストを選択し、regexを使用して変数名を検索できます。 Assumは、最初のスクリプトはMETADATA_LANGUAGE含まれています

items = response.xpath('//script/text()')[0].re(".*METADATA_LANGUAGE.*") 
1

はいこれはScrapyを使用して可能です。 this questionをご覧ください。

あなたが探しているものを達成する方法はたくさんあります。 1つは、治療のセレクタを使用して<script>タグを取得し、次にregexを使用して、特定のMETADATA_LANGUAGE変数を取得することです。

関連する問題