Amazon S3からWATアーカイブセグメントのサブセットをダウンロードしたいと考えています。一般的なクロールインデックスサーバーからWATアーカイブのサブセットのオフセットと長さを取得
背景:AWS S3のWARCファイルの場所に関する情報をhttp://index.commoncrawl.org利回り結果の一般的なクロール、インデックスを検索
。例えば、url=www.celebuzz.com/2017-01-04/*&output=jsonを検索する
{ "urlkey":"com,celebuzz)/2017-01-04/watch-james-corden-george-michael-tribute", ... "filename":"crawl-data/CC-MAIN-2017-34/segments/1502886104631.25/warc/CC-MAIN-20170818082911-20170818102911-00023.warc.gz", ... "offset":"504411150", "length":"14169", ... }
filename
エントリは、この特定のページのWARCファイルを含むアーカイブセグメントを示している一方がJSON形式の結果をもたらします。このアーカイブファイルは膨大です。幸いなことに、エントリにはoffset
とlength
フィールドも含まれ、アーカイブセグメントの関連するサブセットを含むバイトの範囲を要求するために使用できます(たとえば、lines 22-30 in this gistを参照)。
私の質問:
WARCファイルセグメントの位置を考えると、私は、対応するWATアーカイブセグメントの名前を構築する方法を知っている(参照、例えば、this tutorial)。 WATファイルのサブセットが必要なだけなので、バイトの範囲を要求したいと思います。しかし、WATアーカイブセグメントの対応するオフセットと長さを見つけるにはどうすればよいですか?
一般的なクロールインデックスサーバーのAPI documentationを確認しましたが、これも可能であることはわかりません。しかし、そうであれば、私はこの質問を投稿しています。
これは私が疑ったものです。 – jmtroos