DocumentDBを使用したいが、PySpark用のコネクタがない。 DocumentDBもMongoDB Protocol as mentioned hereをサポートしているように見えます。つまり、既存のMongoDBドライバはすべて動作するはずです。 PySpark connector for MongoDBがあるので、私はこれを試してみたかった。Azure DocumentDB with MongoDB Protocolスパークインテグレーション
df = spark.read.format("com.mongodb.spark.sql.DefaultSource").load()
これはエラーをスローします。
com.mongodb.MongoCommandException: Command failed with error 115: ''$sample' is not supported' on server example.documents.azure.com:10250. The full response is { "_t" : "OKMongoResponse", "ok" : 0, "code" : 115, "errmsg" : "'$sample' is not supported", "$err" : "'$sample' is not supported" }
DocumentDB MongoDB APIはMongoDBのすべての機能をサポートしていないようですが、ドキュメントは見つかりません。あるいは私は何か他のものを逃していますか
回答ありがとうございます。それが私の考えでもあります。 – chhantyal
'PyDocumentDB'で使用するだけでは十分ではありません。 docsで与えられた例によれば、DataFrameを作成する前に明示的にメモリ内のPythonデータ型に変換する必要があるため、大量のデータでは機能しません。 – chhantyal
@chhantyal大量のデータを扱うには、スライスごとに多くのデータフレームを照会し、['union'](http://spark.apache.org/docs/latest/api/python/pyspark.sql.html)を使用するのがよいでしょう。 #pyspark.sql.DataFrame.union)メソッドを使用して、すべての小さなサイズのデータフレームを含む新しいデータフレームを生成します。 –