WebSocketからデータを読み込むSpark Streaming用のカスタムリーダーがあります。 Spark Structured Streamingを試してみましょう。カスタムストリーミングデータソースを作成する方法は?
Spark Structured Streamingでストリーミングデータソースを作成する方法は?
WebSocketからデータを読み込むSpark Streaming用のカスタムリーダーがあります。 Spark Structured Streamingを試してみましょう。カスタムストリーミングデータソースを作成する方法は?
Spark Structured Streamingでストリーミングデータソースを作成する方法は?
ストリーミングデータソースはorg.apache.spark.sql.execution.streaming.Sourceを実装しています。
org.apache.spark.sql.execution.streaming.Source
のscaladocは、開始するための十分な情報を提供する必要があります(コンパイル可能なScalaタイプを開発するための型に従ってください)。
Source
を取得したら、のDataStreamReader
で使用できるように登録する必要があります。 format
のためにストリーミングソースを利用できるようにするためのトリックは、ストリーミングソースのためにDataSourceRegister
を作成することによってそれを登録することです。あなたはMETA-INF/services/org.apache.spark.sql.sources.DataSourceRegisterに例を見つけることができます。
org.apache.spark.sql.execution.datasources.csv.CSVFileFormat
org.apache.spark.sql.execution.datasources.jdbc.JdbcRelationProvider
org.apache.spark.sql.execution.datasources.json.JsonFileFormat
org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat
org.apache.spark.sql.execution.datasources.text.TextFileFormat
org.apache.spark.sql.execution.streaming.ConsoleSinkProvider
org.apache.spark.sql.execution.streaming.TextSocketSourceProvider
org.apache.spark.sql.execution.streaming.RateSourceProvider
実装にformat
に短い名前をリンクファイルのこと。
は、例えば、(format
付き)ストリーミングクエリを書く:私は通常私のスパークワークショップ中にやって人々が両側から開発を開始することでお勧めは何
val input = spark
.readStream
.format("yourCustomSource") // <-- your custom source here
.load
ストリーミングSource
を実装しDataSourceRegister
良いヘッドスタートのためorg.apache.spark.sql.execution.streaming.RateSourceProviderのコードを見直してMETA-INF/services/org.apache.spark.sql.sources.DataSourceRegister
を使用して登録します。