私はPySparkSpark DataframeはDBに対する変換をサポートしていますか?
df1 = session.read.jdbc(url=self.url,
table=self.table,
properties={"driver": self.driver,
"user": self.user,
"password": self.password})
または
df1 = sql.read.format("com.databricks.spark.redshift")
.options(url=self.url,
query=self.table,
user=self.user,
password=self.password,
tempdir="s3://path/data/").load()
でテーブルを取得し、私が参加し、GROUPBY
df3 = df1.join(df2, df1.id == df2.id)
df_res = df3.groupBy("id").agg({'tax': 'sum'})
のようないくつかの変換を適用DBに対して行われていることでしょうか? 「はい」の場合は、そのことをメモリ内でどのように行うのですか?