は今、私は非効率的なアプローチを持っている:SparkのIDのリストからIDを含むすべてのデータを検索するにはどうすればよいですか?
ids = [...]
matched = []
for id in ids:
d = data.where(data.id == id)
d = d.take(1)
matched.append(d[0][3])
私はより速く、これを行うことができますどのように思ったんだけど? データには4列が含まれ、4番目の列にはidsが含まれます。
-update-
おそらくこれは?
これは、上記のアプローチでは40分ではなく5分を要する。
idsは行のリストですか?なぜRDDやデータフレームではないのですか? – David
私は信じているデータフレームですが、Sparkを使い始めたので確信しています。よりよいアプローチは何と思いますか? – blpasd