各メッセージを構造化ストリーミングパイプライン(spark 2.1.1でソースはkafka 0.10.2.1である)を通って処理するための「推奨される」方法は何でしょうか?ストラクチャードストリーミング - 各メッセージを消費する
これまでのところ、dataframe.mapPartitions
(私はhbaseに接続する必要があります。そのクライアント接続クラスはシリアル化できないため、mapPartitions
)です。
アイデア? https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#output-sinksと
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#using-foreachは、クライアントが直列化可能ではないですが、あなたはForeachWriter
コンストラクタでそれを開く必要はありません。