2016-07-19 10 views
1

を保つ私は、スパークのデータフレームから重複を削除するgroupBy機能を使用しています。グループごとに、最初の行を取りたいだけです。これは最も新しい行になります。スパークデータフレームは、最初

私は結果がすでにカサンドラにソートし、不要な計算を回避したい保存されている知っているので、私はmax()集計を実行する必要はありません。パンダを使って、this approachを見てください。

df = sqlContext.read\ 
      .format("org.apache.spark.sql.cassandra")\ 
      .options(table="table", keyspace="keyspace")\ 
      .load()\ 
      .groupBy("key")\ 
      #what goes here? 

答えて

4

ちょうどdropDuplicatesは仕事をする必要があります。

df.dropDuplicates(Seq("column")).showを試してみてください。

は、詳細については、このquestionをチェックしてください。

+0

答えてくれてありがとう。私は実際にこのアプローチを使用するように切り替えました。 'dropDuplicates(['column'])'も動作します – stacksonstacks

+0

@stacksonstacks私はこれがあなたの根本的な問題をより直接的に解決するので、これを受け入れたものとしてマークしますが、あなたはまた質問をretitleするべきです。 –

+0

@JustinPihonyあなたが名前を変更、タイトルのために何を提案していますか? – stacksonstacks

関連する問題