私は入力データをS3上に1つの大きなファイルとして保存しました。 私はファイルを自動的にチョップし、作業者に配布し、データフローを管理したいと思っています。したがって、分散コレクションを使用する考え方。バッグ。各作業者の外部コードを使用した分散型Daskコレクションの処理
私は、ファイル(複数可)からデータを読み込むコマンドラインツール(Javaの)持っています。したがって、私はデータの全体をファイルに書き出し、外部CLI /コードを呼び出してデータを処理し、出力ファイルから結果を読み取るようにしたいと思います。これは、一度に1つのレコードではなく、データのバッチを処理するように見えます。
この問題を解決するにはどうすればよいでしょうか?作業者のディスクにパーティションを書き込んで、それを全体として処理することは可能ですか?
PS。データの他の操作は、レコードごとにデータレコードを処理するより単純なPython関数かもしれないので、分散コレクションモデルにとどまる必要はありませんが、望ましいです。
こんにちはとスタックオーバーフローを歓迎する、[歓迎ツアーを通過するための時間をとってください](https://stackoverflow.com/tour)ここで(あなたの最初のバッジを得るために)あなたのやり方を知り、[最小限の完全で検証可能な例を作成する方法を読む](https://stackoverflow.com/help/mcve)また、[How to Ask Questions(How to Ask Good Questions)](https://stackoverflow.com/help/how-to-ask)もチェックして、フィードバックや役に立つ回答を得る機会を増やしてください。 – DarkCygnus