2017-04-11 14 views
1

MongoDBをSparkに接続していて、クエリを使用してデータをロードしたいとします。spongとquery mongodb

df = sqlContext.read.format("com.mongodb.spark.sql").options(collection='test', query = {'name' :'jack'}).load() 
df.show() 

ただし、コレクション全体が返されます。 Sparkのdb.test.find({'name': 'jack'})と同じものをどのように再現できますか?

from pyspark.sql.functions import col 

df.filter(col("name") == "jack") 

それはaggregation pipelineに変換されます:

答えて

2

あなたは、条件を指定しfilterまたはwhereを使用することができます

、基礎となるモンゴコネクタコードの構文をデータフレームとフィルターを使用するか、またはSQLスパークそれをSparkに送る前にMongoDBのデータをフィルタリングする集約パイプライン。

関連する問題