Spark Dataframeのビットを持つ列を持っていますdf
。列は、形式の文字列です:Spark Dataframe APIを使用して列内の特定の文字をカウントする
10001010000000100000000000000000
10001010000000100000000100000000
は、新しい列"no_of_ones"
を作成し、データフレームを使用してのものの頻度をカウントするための簡単かつ効果的な方法はありますか? RDDを使用して私はmap(lambda x:x.count('1'))
(pyspark)することができます。 さらに、どのようにリストの位置を取得することができますか?
質問が投票された理由は分かりませんが、回答は投票されました。 –