私は、複数のソースシステム(Mysqlインスタンス)から5分ごとにデータを取得し、他のデータ(S3に存在することができます)で結合して豊かにする必要があります。SparkでのMysqlデータ処理
Sparkでこの処理を行い、複数のエグゼキュータに実行を分散したいと考えました。
主な問題は、私がMysqlでルックアップを行うたびに、私は最新のレコードを取得したいだけです(lastModifiedOn> timestampで言うことができます)。 この選択的なMySql行のフェッチは、どのように効果的に実行できますか? これは私がしようとしているものです:
val filmDf = sqlContext.read.format("jdbc")
.option("url", "jdbc:mysql://localhost/sakila")
.option("driver", "com.mysql.jdbc.Driver").option("dbtable", "film").option("user", "root").option("password", "")
.load()
はあなたがしようとしているものとのあなたの質問を更新することはできますか? – eliasah
@eliasahはい投稿を更新します。 – Karshit