私はAWS/EMRのストリーミングステップをPythonで書かれたマッパーと減速機で実行して、感情分析のために共通クロールのアーカイブの一部をマッピングしています。一連のwarc.gzファイルのマッピングEMR
以前の一般的なクロールtextData形式から新しいwarc.gz形式に移行しています.EMR入力用にさまざまなwarc.gzファイルを指定する方法について知る必要があります。例えば
:私のようなテキストデータファイルの入力範囲を指定することができ、古い形式で
:
s3://aws-publicdatasets/common-crawl/parse-output/segment/1341690165636/textData-000[0-9][0-9]
が、新しいフォーマットは、次のようになります。
最初のファイル:
s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00000-ip-10-236-182-209.ec2.internal.warc.gz
第2ファイル:
s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00001-ip-10-236-182-209.ec2.internal.warc.gz
これらのwarc.gzファイルをどのようにマップするかを指定するにはどうすればよいですか?
以前と同じ方法を使用できませんか? –
それは何を求めている - ファイルの範囲を指定するには? textdataファイルの場合、数字の範囲はファイルに番号が付けられているので簡単ですが、text.dataファイルのように末尾ではなく各ファイル名内で番号が付けられます。上の2つのwarc.gaの例で00000と00001を調べてください。両方を実行するステップを指定するにはどうすればよいですか? – DataGuy