ファイルサイズが100 MBで、デフォルトのブロックサイズが64 MBだとします。入力分割サイズを設定しないと、デフォルトの分割サイズはブロックサイズになります。現在、分割サイズも64 MBです。入力分割とハブロックのブロック
この100 MBファイルをHDFSに読み込むと、100 MBファイルは2つのブロックに分割されます。すなわち、64MBおよび36MBである。例えば、以下は100MBの詩の歌詞です。このデータをHDFSにロードすると、ライン1からライン16の半分まで正確に64 MBが1つのスプリット/ブロック(最大まで ""となり、ラインの残りの半分はとなります)を再生)を2番目のブロック(36 MB)としてファイルの最後に挿入します。マッパの仕事は2つあります。
私の質問は、ブロックがラインの半分しか持っていないか、または2番目のマッパーがブロック2の第1ラインをどのように考慮するかという点で、第1ラインのマッパーが第16ライン(ブロック1のライン16)また、ラインの半分を持っています。
Mary had a little lamb
Little lamb, little lamb
Mary had a little lamb
Its fleece was white as snow
And everywhere that Mary went
Mary went, Mary went
Everywhere that Mary went
The lamb was sure to go
He followed her to school one day
School one day, school one day
He followed her to school one day
Which was against the rule
It made the children laugh and play
Laugh and play, laugh and play
It made the children laugh and play
To see a lamb at school
And so the teacher turned him out
Turned him out, turned him out
And so the teacher turned him out
But still he lingered near
And waited patiently
Patiently, patiently
And wai-aited patiently
Til Mary did appear
64 MBを分割するときに、1行を分割する代わりに、hadoopは16行全体を考慮しますか?