6

一般的なクロールの公開データセットのサブセットを参照してダウンロードする必要があります。 Thisページには、データがホストされている場所が記載されています。
s3:// aws-publicdatasets/common-crawl/crawl-002 /でホストされている一般的なクロールデータを参照し、ダウンロードするにはどうすればよいですか?共通のクロールにアクセスするAWS公開データセット

答えて

12

http://commoncrawl.org/the-data/get-started/は、常に無料となっている、とあなたは代わりにS3のHTTPを使用することができます。http://commoncrawl.org/the-data/

をはじめ。 S3では、匿名の認証情報を使用してデータにアクセスできます。

次のような、ファイルの場所のいずれかを取得し、HTTP経由でダウンロードする場合:1404776400583.60/WARC/CC- /共通クロール/クロールデータ/ CC-MAIN-2014から23 /セグメント

その後、MAIN-20140707234000から00000-IP-10-180-212-248.ec2.internal.warc.gz

とは、リンクが得られ、それにhttps://aws-publicdatasets.s3.amazonaws.com/を追加します。

https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

取得するにはそのようなすべてのファイルの一覧は、warc.paths.gzを参照してください(またはW ETまたはWATファイル)を使用するか、s3cmdなどのツールを使用して匿名の資格情報を使用してファイルを一覧表示します。

このリンクは機能し、S3を経由せずにデータをダウンロードできます。

0

共通クロールデータにアクセスするには、あなたはそれに対して仕事 を、そして、コーパスは、S3上に存在するので、あなたは は、AmazonのEC2サービスを使用してHadoopクラスタを実行することによって行うことができ、減らすマップを実行する必要があります。これには カスタムハープルジャーを設定します。これはカスタムInputFormat クラスを使用してS3バケットの個々のARCファイルからデータを取得します。

出典:一般的なクロールコーパスをダウンロードするだけで、更新など

+3

....そして、その '無料の'ラベルをスローします。 –

3

は共通のクロールに一般的なデータアクセスがで議論されているクロール: http://index.commoncrawl.org/CC-MAIN-2015-18

:私はいくつかの臨床試験データを取得について移動する便利な方法を検討する何 http://blog.commoncrawl.org/2015/05/april-2015-crawl-archive-available/

、アーカイブの上に新しいインデックスを使用することです

例えば「www.cwi.nl」を検索すると、そのドメインのファイルを含むセグメントに関するJSON構造が見つかります。

{ 
"urlkey": "nl,cwi)/", "timestamp": "20150505031358", 
"status": "200", "url": "http://www.cwi.nl/", 
"filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz", 
"length": "5881", "mime": "text/html", "offset": "364108412", 
"digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5" 
} 

プレフィックスそれにS3の情報、およびあなたがサンプルデータとして使用することができ、データ・ファイルダウンロードすることができます。楽しんで https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz

を!

関連する問題