0
を用いてデータフレームにJSONオブジェクトの問合せ:は、私は、次のスキーマとMySQLのテーブルを持っているPyspark
id-int
path-varchar
info-json {"name":"pat", "address":"NY, USA"....}
Iは、MySQLにpysparkを接続するためのJDBCドライバを使用します。私はmysqlからデータを取得することができます
df = sqlContext.sql("select * from dbTable")
このクエリはすべて正常に動作します。私の質問は、どのように私は "情報"の列でクエリできますか?たとえば、以下のクエリはMySQLシェルですべて正常に動作し、データを取得しますが、これはPyspark(2+)ではサポートされていません。
select id, info->"$.name" from dbTable where info->"$.name"='pat'
ご返信ありがとうございます。このメソッドは、データがデータフレームにロードされている場合にのみ機能します。何十万というレコードがあります。完全なテーブルを読み込んでデータをフィルタリングするのは、効率的な方法ではないかもしれません。完全な表をロードするのではなく、照会で一致したデータ(json検索)を検索する方法はありますか? – Momi