1
スパークでは、マップを使用する前にフィルタ操作を実行して、マップが可能であることを確認することがよくあります。以下の例を参照してください:スパークの回数とフィルタ
bc_ids = sc.broadcast(ids)
new_ids = users.filter(lambda x: x.id in ids.value).map(lambda x: ids.value[x])
フィルタリングしたユーザーの数を知りたい場合は、どのように効率的に行うことができますか?
count_before = users.count()
new_ids = users.filter(lambda x: x.id in ids.value).map(lambda x: ids.value[x])
count_after = new_ids .count()
質問が1に関連しているのが、対照的に、スパークSQLに関するものではありません。だから私は使用しないことを好むだろう。