2017-12-02 3 views

答えて

4

ストリーミングデータソースはorg.apache.spark.sql.execution.streaming.Sourceを実装しています。

org.apache.spark.sql.execution.streaming.Sourceのscaladocは、開始するための十分な情報を提供する必要があります(コンパイル可能なScalaタイプを開発するための型に従ってください)。

Sourceを取得したら、のDataStreamReaderで使用できるように登録する必要があります。 formatのためにストリーミングソースを利用できるようにするためのトリックは、ストリーミングソースのためにDataSourceRegisterを作成することによってそれを登録することです。あなたはMETA-INF/services/org.apache.spark.sql.sources.DataSourceRegisterに例を見つけることができます。

org.apache.spark.sql.execution.datasources.csv.CSVFileFormat 
org.apache.spark.sql.execution.datasources.jdbc.JdbcRelationProvider 
org.apache.spark.sql.execution.datasources.json.JsonFileFormat 
org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat 
org.apache.spark.sql.execution.datasources.text.TextFileFormat 
org.apache.spark.sql.execution.streaming.ConsoleSinkProvider 
org.apache.spark.sql.execution.streaming.TextSocketSourceProvider 
org.apache.spark.sql.execution.streaming.RateSourceProvider 

実装にformatに短い名前をリンクファイルのこと。

  1. は、例えば、(format付き)ストリーミングクエリを書く:私は通常私のスパークワークショップ中にやって人々が両側から開発を開始することでお勧めは何

    val input = spark 
        .readStream 
        .format("yourCustomSource") // <-- your custom source here 
        .load 
    
  2. ストリーミングSourceを実装しDataSourceRegister

良いヘッドスタートのためorg.apache.spark.sql.execution.streaming.RateSourceProviderのコードを見直してMETA-INF/services/org.apache.spark.sql.sources.DataSourceRegisterを使用して登録します。

関連する問題