2017-07-17 8 views
0

私は一般的なクロールからデータをクロールしましたが、それぞれのレコードに対応するURLを探したいと思います。一般的なクロールからクロールされたwarcファイルからURLを見つけることができません

for record in files: 
    print record['WARC-Target-URI'] 

これは空のリストを出力します。私は以下のリンク https://dmorgan.info/posts/common-crawl-python/を参照しています。 1つのwarcファイルパスに対して、それぞれのレコードに対応するターゲットURIまたは1つのターゲットURIを取得しますか?

+0

それは理由が詳細なログなしで何ができるかを理解するのは難しいです。 –

+0

例を[dmorgan.info](https://dmorgan.info/posts/common-crawl-python/)から更新して、URLとパスが正しいデータの場所を指すようにしましたか?データは昨年、バケットs3:// commoncrawl /に転送されました([CCグループ](https://groups.google.com/d/topic/common-crawl/nKuQK68rebo/discussion)): 1.パスの接頭辞 'common-crawl /' を削除します。2. URLのホストを 'commoncrawl.s3.amazonaws.com'に変更します。 'https:// aws-publicdatasets.s3.amazonaws.com/common-crawl /'は 'https:// commoncrawl.s3.amazonaws.com /' –

+0

になります。はい、それに応じてパスがあり、 record.payload.read()の値は記録されますが、レコード['WARC-Target-URI']は何も返しません。レコード['Content-Language']の場合もそうです –

答えて

0

あなたの情報はヘッダーの一部です。試してみてください:

print record.header['WARC-Target-URI']

関連する問題