1
MongoDBをSparkに接続していて、クエリを使用してデータをロードしたいとします。spongとquery mongodb
df = sqlContext.read.format("com.mongodb.spark.sql").options(collection='test', query = {'name' :'jack'}).load()
df.show()
ただし、コレクション全体が返されます。 Sparkのdb.test.find({'name': 'jack'})と同じものをどのように再現できますか?
from pyspark.sql.functions import col
df.filter(col("name") == "jack")
それはaggregation pipelineに変換されます: