スパークデータフレームは、最初

を保つ私は、スパークのデータフレームから重複を削除するgroupBy機能を使用しています。グループごとに、最初の行を取りたいだけです。これは最も新しい行になります。スパークデータフレームは、最初

私は結果がすでにカサンドラにソートし、不要な計算を回避したい保存されている知っているので、私はmax()集計を実行する必要はありません。パンダを使って、this approachを見てください。

df = sqlContext.read\ 
      .format("org.apache.spark.sql.cassandra")\ 
      .options(table="table", keyspace="keyspace")\ 
      .load()\ 
      .groupBy("key")\ 
      #what goes here?

出典

2016-07-19 stacksonstacks

ちょうどdropDuplicatesは仕事をする必要があります。

はdf.dropDuplicates(Seq("column")).showを試してみてください。

は、詳細については、このquestionをチェックしてください。

出典

2016-07-20 11:41:25 NehaM

答えてくれてありがとう。私は実際にこのアプローチを使用するように切り替えました。 'dropDuplicates（['column']）'も動作します – stacksonstacks

@stacksonstacks私はこれがあなたの根本的な問題をより直接的に解決するので、これを受け入れたものとしてマークしますが、あなたはまた質問をretitleするべきです。 –

@JustinPihonyあなたが名前を変更、タイトルのために何を提案していますか？ – stacksonstacks

スパークデータフレームは、最初

答えて

関連する問題