2016-07-07 3 views
1

私はAWS/EMRのストリーミングステップをPythonで書かれたマッパーと減速機で実行して、感情分析のために共通クロールのアーカイブの一部をマッピングしています。一連のwarc.gzファイルのマッピングEMR

以前の一般的なクロールtextData形式から新しいwarc.gz形式に移行しています.EMR入力用にさまざまなwarc.gzファイルを指定する方法について知る必要があります。例えば

:私のようなテキストデータファイルの入力範囲を指定することができ、古い形式で

s3://aws-publicdatasets/common-crawl/parse-output/segment/1341690165636/textData-000[0-9][0-9] 

が、新しいフォーマットは、次のようになります。

最初のファイル:

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00000-ip-10-236-182-209.ec2.internal.warc.gz 

第2ファイル:

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00001-ip-10-236-182-209.ec2.internal.warc.gz 

これらのwarc.gzファイルをどのようにマップするかを指定するにはどうすればよいですか?

+0

以前と同じ方法を使用できませんか? –

+0

それは何を求めている - ファイルの範囲を指定するには? textdataファイルの場合、数字の範囲はファイルに番号が付けられているので簡単ですが、text.dataファイルのように末尾ではなく各ファイル名内で番号が付けられます。上の2つのwarc.gaの例で00000と00001を調べてください。両方を実行するステップを指定するにはどうすればよいですか? – DataGuy

答えて

0

以前と同じ方法を使用できますか?これらのパスは、あなたがプロセスにデータのセットを指定するための追加の方法があり、以前のものより富んでいるので、また

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-0000[0-1]-ip-10-236-182-209.ec2.internal.warc.gz

:ちょうどあなたが使用する2つのファイルを読むには。

CC-MAIN-2016-07 is CC-MAIN-YYYY-ww - 処理する年または週のセットを指定する能力。

CC-MAIN-20160205195359 is CC-MAIN-YYYYMMDDHHmmss - 日付または時間の範囲を選択できます。

0

あなたはS3を経由してアクセスするためにあなたの場合は、ファイル

commoncrawl.s3.amazonaws.com/ 

で述べたパスにこれを添付しブラウザ経由でアクセスするための

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/warc.paths.gz 
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wat.paths.gz 
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wet.paths.gz 

を経由して2016年7月のWARCファイルのリストをダウンロードすることができますこれをパスに追加してみてください

s3://commoncrawl/ 
関連する問題