私はApache Beamを数日間使っています。私は作業中のアプリケーションを迅速に反復し、私が構築しているパイプラインにエラーがないことを確認したかったのです。火花ではsc.parallelise
を使用することができ、何らかのアクションを適用するときには、検査できる値が得られます。Apache Beamパイプラインからの出力を収集してコンソールに表示する
は同様に私は、Apacheビームについて読んでいたとき、私は私が実際にコンソールに結果を印刷したかった私たちはPCollection
を作成し、次の構文
with beam.Pipeline() as pipeline:
lines = pipeline | beam.Create(["this is test", "this is another test"])
word_count = (lines
| "Word" >> beam.ParDo(lambda line: line.split(" "))
| "Pair of One" >> beam.Map(lambda w: (w, 1))
| "Group" >> beam.GroupByKey()
| "Count" >> beam.Map(lambda (w, o): (w, sum(o))))
result = pipeline.run()
を使用してそれに取り組むことを見出しました。しかし、私はその周りのドキュメントを見つけることができませんでした。
結果を毎回ファイルに保存するのではなくコンソールに出力する方法はありますか?