私はタイムスタンプ列とドル列からなるデータセットを持っています。週ごとの平均ドル数が各行のタイムスタンプで終わるのを見たいと思います。最初はpyspark.sql.functions.window関数を見ていましたが、それは週ごとにデータを格納します。 %pyspark
import datetime
from pyspark.sql import functions as F
df1 =
私の目標は、現在のパーティションを除く平均を計算することです。以下の表では、avg_prod_rev_oth_cust列を生成する方法を知りたいと思っています。他の顧客の平均製品収益。ウィンドウ関数でこれを行うことはできますか? cust prod rev avg_prod_rev avg_prod_rev_oth_cust
a x 1 3.5 4.5
a x 2 3.5
私はとextended_priceの列を持つorder_linesテーブルを持っています。私はすべての注文の延長価格の合計の平均よりも高い延長価格の合計を持つ注文を知りたい。これは私が得たクエリです: SELECT order_id, SUM(extended_price) AS "sumtotal"
FROM order_lines e
GROUP BY order_id
HAVING S
私はPandas DataFrameへの集計の後に行うためのpandas構文を探しています。私はパンダでSQLクエリを実行する方法の例を見つけることができません。 #sum and divide
select
click,
ctr,
SUM(click)/SUM(imp) as ctr
from mytable
group by website
#normalize each su