私はpysparkでSparkSQLを使用していくつかのPostgreSQLテーブルをDataFramesに格納してから、date
というstart
とstop
カラムに基づいていくつかの時系列を生成するクエリを作成します。parkparkのSparkSQL:時系列を生成するには?
my_table
が含まれているとします。PostgreSQLの
start | stop
-------------------------
2000-01-01 | 2000-01-05
2012-03-20 | 2012-03-23
を、それはそれを行うことは非常に簡単です:
SELECT generate_series(start, stop, '1 day'::interval)::date AS dt FROM my_table
、それはこのテーブルを生成します。
dt
------------
2000-01-01
2000-01-02
2000-01-03
2000-01-04
2000-01-05
2012-03-20
2012-03-21
2012-03-22
2012-03-23
が、どのように行うにそれは普通のSparkSQLを使っているのですか? UDFやいくつかのDataFrameメソッドを使用する必要がありますか?
は、ラケッシュ、ありがとうございました。あなたのアイデアに合わせてあまり控えめな解決策を思いつきました。私はそれができるだけ少ないPythonコードでSparkSQLの構文に欲しいと思っていました。私はあなたの答えを受け入れるだろうが、私の解決策を見てください。 – pietrop