私はHadoop 2.7.2を実行しています。失敗したタスクが中断された入力ファイルのポイントで、新しいHadoopタスクが再開されることを保証できますか?
10個のHadoopタスクが実行され、各タスクが1個のHDFS入力テキストファイルを処理しているとします。
たとえば、HDFS入力ファイルfile05の566行目を読み込んでいるときにタスクの1つが失敗するとします。
デフォルトではどうなりますか? Hadoopの2番目のタスクは、file05の567行目で再開されますか?または、2番目のタスクの試行はfile05の最初の行で開始されますか?
ユースケースによっては、失敗した処理が途切れる場所を選択することができます。あるいは、別のケースでは、そのファイルを新たに処理したいことがあります。
Hadoopの2番目のタスクの試みがfile05の567行目で再開されるようにするにはどうすればよいですか?
2番目のタスクの試行がfile05の最初の行から始まることを確認するにはどうすればよいですか?
私は上記の例のfile05の1行目から始めると仮定します。 –
はい – BDBoss