2016-10-29 15 views
0

を使用して、埋め込みビデオをダウンロードすると、サンプルリンクは私は以下、パイソン経由emmbeddedリンクをダウンロードしようとしていますのpython

https://matterhorn.dce.harvard.edu/engage/player/watch.html?id=f7ff1893-fbf7-4909-b44e-12e61a98a677

である私は、そのページに移動すると、それはロードしても、プレイを押す必要があるためにいくつかを取ります、

ご協力いただければ幸いです。

答えて

1

(DOMがロードされ、JavaScriptコードが実行された後に)生成されたページのソースを表示すると、それはHTMLページであることがわかります(ビデオへのリンクではありません)。あなたは(開発者ツールバーの)あなたのnetworkタブを確認した場合ので、あなたが実際にダウンロードしたいファイルが

https://da4w749qm6awt.cloudfront.net/engage-player/f7ff1893-fbf7-4909-b44e-12e61a98a677/24320288-b79e-49e5-93b6-96b4c208f8cb/presenter_delivery.mp4" 

ある

<div id="playerContainer_videoContainer_container" role="main" style="position: relative; display: block; margin-left: auto; margin-right: auto; width: 1902px; height: 1070px; top: 0px;"> 
<div id="overlayContainer" role="main" style="position: absolute; left: 0px; right: 0px; top: 0px; bottom: 0px; overflow: hidden; z-index: 10;"></div> 
<img id="playerContainer_videoContainer_bkg" src="config/profiles/resources/slide_professor_paella.jpg" alt="" width="100%" height="100%" style="position: relative; top: 0px; left: 0px; right: 0px; bottom: 0px; z-index: 0;"> 
<video id="playerContainer_videoContainer_1" preload="auto" style="top: 18.4722%; left: 0.390625%; width: 65%; height: 65%; position: absolute; z-index: 1;" poster="https://da4w749qm6awt.cloudfront.net/engage-player/f7ff1893-fbf7-4909-b44e-12e61a98a677/attachment-5/presenter_delivery.jpg"> 
    <source src="https://da4w749qm6awt.cloudfront.net/engage-player/f7ff1893-fbf7-4909-b44e-12e61a98a677/24320288-b79e-49e5-93b6-96b4c208f8cb/presenter_delivery.mp4" type="video/mp4"> 
</video> 
<video id="playerContainer_videoContainer_2" preload="auto" style="top: 33.4722%; left: 66.0156%; width: 33.75%; height: 33.75%; position: absolute; z-index: 1;" poster="https://da4w749qm6awt.cloudfront.net/engage-player/f7ff1893-fbf7-4909-b44e-12e61a98a677/attachment-8/presentation_delivery.jpg"> 
    <source src="https://da4w749qm6awt.cloudfront.net/engage-player/f7ff1893-fbf7-4909-b44e-12e61a98a677/93271e20-3f4b-4650-a7e3-95aac41fd3e5/presentation_delivery.mp4" type="video/mp4"> 
</video> 

:ソースは、このHTMLを生成するJavaScriptコードが含まれていますこのURLにajaxリクエストが送信されます:

https://matterhorn.dce.harvard.edu/search/episode.json?id=f7ff1893-fbf7-4909-b44e-12e61a98a677&_=1477764682940 

(ここでidは元のURLのIDと同じものです)が表示されます。それはここに置くには余りにも大きいですから、

{"search-results":{"searchTime":"1","total":"1","limit":"1","offset":"0","query":"(id:f7ff1893\\-fbf7\\-4909\\-b44e\\-12e61a98a677) AND oc_organization:mh_default_org AND (o 

のみパーシャルレスポンス:

この要求からの応答はJSON文字列です。応答の

一部は次のとおりです。

6つのアイテムを持って
search-results.result.mediapackage.media.track 

、それらのそれぞれは、あなたは、関連するビデオのリンクを取るために使用できるURLプロパティを持っています

enter image description here

私はこの情報があなたに良いスタート地点を与えると思います。

+0

コメントを投稿するにはログインしてください。 – Dekel

+0

恐ろしい説明、私は最初のjavascript出力を使ってソースを取得し、Pythonを使ってそのソースにアクセスして読むことができると考えていましたか? –

+0

また、あなたが私が投稿したリンクのhtmlを抽出するために使用したコードを教えてもらえますか、私はrequestes.get()を使って試しています –

関連する問題