私はPlayでSpark 2.0を使用しようとしています! 2.5しかし、私はそれが正常に動作するように管理していません(そしてGithubには例がないようです)。Play with Spark 2.0! 2.5
私はコンパイルエラーはありませんが、私はいくつかの奇妙な実行エラーがあります。例えば
: はほとんどDataset
またはDataframe
上のすべての操作はNullPointerException
につながる:
val ds: Dataset[Event] = df.as[Event]
println(ds.count()) //Works well and prints the good results
ds.collect() // --> NullPointerException
ds.show
もNullPointerException
につながります。
私はどこかに大きな問題があるので、私はそれが互換性のないバージョンから来ていると思います。ここに私のbuild.sbt
の関連部分は次のとおりです。
object Version {
val scala = "2.11.8"
val spark = "2.0.0"
val postgreSQL = "9.4.1211.jre7"
}
object Library {
val sparkSQL = "org.apache.spark" %% "spark-sql" % Version.spark
val sparkMLLib = "org.apache.spark" %% "spark-mllib" % Version.spark
val sparkCore = "org.apache.spark" %% "spark-core" % Version.spark
val postgreSQL = "org.postgresql" % "postgresql" % Version.postgreSQL
}
object Dependencies {
import Library._
val dependencies = Seq(
sparkSQL,
sparkMLLib,
sparkCore,
postgreSQL)
}
lazy val root = (project in file("."))
.settings(scalaVersion := Version.scala)
.enablePlugins(PlayScala)
libraryDependencies ++= Dependencies.dependencies
dependencyOverrides ++= Set(
"com.fasterxml.jackson.core" % "jackson-databind" % "2.7.4",
"com.fasterxml.jackson.module" %% "jackson-module-scala" % "2.7.4"
)
上記のようないくつかのコードを共有してくださいdfがdataframeであり、それがgitリポジトリに公開されていれば、そのリンクを与えることができます –
私のDataframeは次のようになります: 'spark.sqlContext.read.jdbc(databaseURL、query、 connectionProperties) 'は、有効なSQLクエリです。 – Simon
そしてgit repo:https://github.com/ticketapp/play2.5Spark2.0 – Simon