ファイルの圧縮形式を変更して、同じサブディレクトリ名とファイル名で出力する必要があります。sparkを使用してファイル圧縮形式を変換する
/user/me/project/2017-3-06/ {part-r-00001.lzo, part-r-00002.lzo, ...}
/user/me/project/2017-3-07/ {part-r-00001.lzo, part-r-00002.lzo, ...}
/user/me/project/2017-3-08/ {part-r-00001.lzo, part-r-00002.lzo, ...}
予想される出力は次のようになります。たとえば、入力が似ている場合
/user/me/project_v2/2017-3-06/ {part-r-00001.lz4, part-r-00002.lz4, ...}
/user/me/project_v2/2017-3-07/ {part-r-00001.lz4, part-r-00002.lz4, ...}
/user/me/project_v2/2017-3-08/ {part-r-00001.lz4, part-r-00002.lz4, ...}
は、私もそれを達成するためにスパークを使用する必要がありますか?
Can?確かに...少しの創造性で、あなたはたくさんのことをすることができます。それは理にかなっていますか?どういたしまして。 Sparkに対して多くのハッキングを行う必要があります。 – zero323
代わりに "できますか"と尋ねることを考えてください。私は思ったように、おそらくスパークはこの特定の仕事にとって最良の選択ではないでしょう。ところで、それを達成するための提案されたツールはどれですか? – SexyNerd
:)個人的には、[Luigi](https://luigi.readthedocs.io/en/stable/)または同様のバッチ処理/ワークフロー管理システムを見ていきます。 – zero323