Apacheのスパークへのデータのストリームを読み込むためのdocumentationから標準的な方法は次のとおりです。データセット全体をロードする前に、各イベントにカスタムデータの書式設定/マップを適用する方法はありますか?
events = spark.readStream \
.format("json") \ # or parquet, kafka, orc...
.option() \ # format specific options
.schema(my_schema) \ # required
.load("path/to/data")
しかし、私は、スキーマを適用する前に、フィールドのデータを再配置し、いくつかのいくつかをクリーンアップする必要があり、私は
events = spark.readStream \
.format("json") \ # or parquet, kafka, orc...
.option() \ # format specific options
.schema(my_schema) \ # required
**.map(custom_function)** # apply a custom function to the json object
.load("path/to/data")
ストラクチャードストリーミングを使用してApache Sparkでこれを行う効率的な方法はありますか?