2016-04-07 3 views
-2

whoscored.comから一致するデータを抽出しようとしています。 firefoxでソースを見ると、私はそのマッチドイドに必要なデータが入った大きなjson文字列を816行目に見つけます。私の目標は最終的にこのjsonを得ることです。ソースを表示するためにGETリクエストの出力が異なります

この場合、私はhttps://www.whoscored.com/Matches/ID/Liveのすべてのページをダウンロードしようとしましたが、ここでIDは試合のIDです。コードは、それがHTMLでmatch_dataと呼ばれるディレクトリを埋めることで動作しているようです

package main 

import (
    "fmt" 
    "io/ioutil" 
    "net/http" 
    "os" 
) 

// http://www.whoscored.com/Matches/614052/Live is the match for 
// Eveton vs Manchester 
const match_address = "http://www.whoscored.com/Matches/" 

// the max id we get 
const max_id = 300 
const num_workers = 10 

// function that get the bytes of the match id from the website 
func match_fetch(matchid int) { 
    url := fmt.Sprintf("%s%d/Live", match_address, matchid) 

    resp, err := http.Get(url) 
    if err != nil { 
     fmt.Println(err) 
     return 
    } 

    // if we sucessfully got a response, store the 
    // body in memory 
    defer resp.Body.Close() 
    body, err := ioutil.ReadAll(resp.Body) 
    if err != nil { 
     fmt.Println(err) 
     return 
    } 

    // write the body to memory 
    pwd, _ := os.Getwd() 
    filepath := fmt.Sprintf("%s/match_data/%d", pwd, matchid) 
    err = ioutil.WriteFile(filepath, body, 0644) 
    if err != nil { 
     fmt.Println(err) 
     return 
    } 
} 

// data type to send to the workers, 
// last means this job is the last one 
// matchid is the match id to be fetched 
// a matchid of -1 means don't fetch a match 
type job struct { 
    last bool 
    matchid int 
} 

func create_worker(jobs chan job) { 
    for { 
     next_job := <-jobs 
     if next_job.matchid != -1 { 
      match_fetch(next_job.matchid) 
     } 
     if next_job.last { 
      return 
     } 
    } 
} 

func main() { 
    // do the eveton match as a reference 
    match_fetch(614052) 

    var joblist [num_workers]chan job 
    var v int 

    for i := 0; i < num_workers; i++ { 
     job_chan := make(chan job) 
     joblist[i] = job_chan 
     go create_worker(job_chan) 
    } 
    for i := 0; i < max_id; i = i + num_workers { 
     for index, c := range joblist { 
      if i+index < max_id { 
       v = i + index 
      } else { 
       v = -1 
      } 
      c <- job{false, v} 
     } 
    } 
    for _, c := range joblist { 
     c <- job{true, -1} 
    } 
} 

:私は特定のポイントに、各IDの要求をGETするために少しの囲碁プログラムを書きました。問題は、このhtmlが私がブラウザで取得するものとはまったく異なっていることです!ここで私はこれを行うと思う部分はある:(http://www.whoscored.com/Matches/614052/LiveのGETリクエストのボディから

(function() { 

var z="";var bfor (var i=0;i<b.length;i+=2){z=z+parseInt(b.substring(i, i+2), 16)+",";}z = z.substring(0,z.length-1); eval(eval('String.fromCharCode('+z+')'));})(); 

私はこのケースだと思う理由は、ページ内のJavaScriptは何にDOMを取得し、編集していることです。 JavaScriptを実行するライブラリがありますか?これを行うライブラリはありますか?いいえ、サーバーから直接JSONを取得できますか?

+0

てみパッケージ 'ネット/ html'あなたが本当に行くを使用する必要がある場合(そうでない場合、Pythonはより簡単かもしれません)。 Goは直接javascriptを実行することはできませんが、 'script' DOMを取得し、' src'を取り出し、そこからコードを取得し、jsファイルに書き込んで、Phantom.jsのようなものをGoから実行することができます。 – PieOhPah

+3

GoのJavascriptエンジンは存在しますが、これが本当にやりたいことがわかりません。おそらく、サイトからのjavascriptをレトロエンジニアリングして、データが実際にどのように取得されるかを調べる方が良いでしょう。 – Elwinar

答えて

0

通常、Web APIとスクレイピングを使用する方が良いです。たとえば、あなた自身が直接アクセスできるはずのOPTAを使用しています。

http://www.jokecamp.com/blog/guide-to-football-and-soccer-data-and-apis/#opta

+0

私はあなたがOPTAのために支払う必要があると思います。しかし、おかげで提案。 – user2850249

+0

重要なのは、数十種類のAPIがあることです。スクレイピングの問題は、フロントエンドのデザインが変更されるたびにコードを更新する必要があることです。 – Charlie

関連する問題