私は日付でフィルタリングする必要がある巨大なデータセットを持っています(日付はyyyy-MM-dd形式で保存されています)。以下のオプションのどれを計算するのが最も効率的な方法ですか(そしてその理由)? dt_column
としてスパーク:計算上効率的な日付比較の方法は?
df.filter("unix_timestamp(dt_column,'yyyy-MM-dd') >= unix_timestamp('2017-02-03','yyyy-MM-dd')")
OR
df.filter("cast(dt_column as date) >= cast('2017-02-03' as date)")
両方のクエリのパフォーマンス特性に大きな違いはありません。 –