1
を保つ私は、スパークのデータフレームから重複を削除するgroupBy
機能を使用しています。グループごとに、最初の行を取りたいだけです。これは最も新しい行になります。スパークデータフレームは、最初
私は結果がすでにカサンドラにソートし、不要な計算を回避したい保存されている知っているので、私はmax()
集計を実行する必要はありません。パンダを使って、this approachを見てください。
df = sqlContext.read\
.format("org.apache.spark.sql.cassandra")\
.options(table="table", keyspace="keyspace")\
.load()\
.groupBy("key")\
#what goes here?
答えてくれてありがとう。私は実際にこのアプローチを使用するように切り替えました。 'dropDuplicates(['column'])'も動作します – stacksonstacks
@stacksonstacks私はこれがあなたの根本的な問題をより直接的に解決するので、これを受け入れたものとしてマークしますが、あなたはまた質問をretitleするべきです。 –
@JustinPihonyあなたが名前を変更、タイトルのために何を提案していますか? – stacksonstacks