一般的なクロールを使用してWebページを取得したいが、紛失している。一般的なクロール - WARCファイルの取得
www.example.comのwarcファイルを取得したいと考えています。私はこのリンク(http://index.commoncrawl.org/CC-MAIN-2017-34-index?url=https%3A%2F%2Fwww.example.com&output=json)が次のjsonを生成するのを見る。
{ "urlkey": "COM、例)/"、 "タイムスタンプ": "20170820000102"、 "MIME": "テキスト/ HTML"、 "ダイジェスト": "B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A"、 "ファイル名":「crawl-データ/ CC-MAIN-2017-34 /セグメント/ 1502886105955.66/robotstxt/CC-MAIN-20170819235943-20170820015943-00613.warc.gz "、" mime-detected ":" text/html "、" status ":" 200 " "offset": "1109728"、 "length": "1166"、 "url": "http://www.example.com"}
これらのjson要素を使用してHTMLを取得する方法を正しい方向で指摘できますか?
助けてくれてありがとう!
ありがとうございました。これは本当に役に立ちます。 – MAB