1
hiveQLクエリをpysparkに変換しようとしています。私は日付をフィルタリングして別の結果を得ており、pySparkの動作をHiveの動作に合わせる方法を知りたいと思います。ハイブクエリは次のとおりです。pySparkでハイブpyspark日付比較
SELECT COUNT(zip_cd) FROM table WHERE dt >= '2012-01-01';
私は通訳に入っています:
import pyspark.sql.functions as psf
import datetime as dt
hc = HiveContext(sc)
table_df = hc.table('table')
DateFrom = dt.datetime.strptime('2012-01-01', '%Y-%m-%d')
table_df.filter(psf.trim(table.dt) >= DateFrom).count()
私は2つのカウントでは、類似したが、同じではない結果を取得しています。誰がここで何が起こっているのか知っていますか?
ああそうです。ありがとうございました! – crabmanbrian