MapReduce
、特に以下のクエリを覚えようとしています。Hadoopマッパーは、部分的に次のブロックに流出するレコードでどのように動作しますか?
HDFSのデータはブロックに分割され、通常は一度に1つのブロックで動作します。私たちはrecord
が別のブロックにこぼれ落ちることがあります。たとえば、
データセット:「こんにちは、どうしていますか」;このデータは2つの異なるブロックに流出する可能性があります。
ブロック1:
hello, how a
ブロック2:マッパーがブロック1で動作するかどうか
re
you doing
さて、どのようにマッパーはブロック2にこぼしたブロック1から "フル" のレコードを取得していますか?
私はこれを理解するのに役立つだろうか?