私はスパークの初心者です。私は最も訪問されたウェブページを取得できるようにリクエストしています。スパークリクエスト最大数
私の要求は、私は最大のカウントを有する唯一のデータフレーム取得この要求に以下の
mostPopularWebPageDF = logDF.groupBy("webPage").agg(functions.count("webPage").alias("cntWebPage")).agg(functions.max("cntWebPage")).show()
ですが、私はこのスコアこのスコアと保持しているWebページとのデータフレームを取得したい
次のようなものがあります。
webPage max(cntWebPage)
google.com 2
問題を解決するにはどうすればよいですか?
ありがとうございます。 pyspark + SQLで
おかげであなたの助けを借りてください:) – JackR
あなたが助けてくれたら、@JackR、受け入れられたようにuptove +マークを付けてください。 –
OPは物事がどのように進行するかについてはっきりと分かりません。 :) – eliasah