テキストファイルを別のテキストファイルに変換する必要がある場合、どのようにマッパー/レデューサーを設計しますか?map/reduceでETLを実行する方法
私は小さな変換をしたシンプルなマップ/削減プログラムを書きましたが、要件は以下もう少し凝っているが詳細は以下のとおりです。
- ファイルは通常、次のように構成されている - 最初の行は、カンマが含まれています列名の区切りリスト。残りの行は列に対して値を指定します
- 一部の行では、後続列の値が不足している可能性があります。例:15列がある場合、最初の10列に対してのみ値が指定されます。
- 私は変換して1つのファイルに集約する必要がある約5つの入力ファイルがあります。変換は5つの入力ファイルのそれぞれに固有です。
- ファイル名などのコンテキスト情報をマッパー/レデューサープログラムに渡すにはどうすればよいですか?
- 変換は列に固有なので、最初の行に記載されている列を覚えてから、行内の値を相互に関連付けて変換するにはどうすればよいですか?
関連する回答が必要な場合は、実際に詳細を入力する必要があります。テキストファイルを別のテキストファイルに変換するとほとんどのマップがそこに縮小されます... –