カテゴリ(List [String])の列を持つデータフレームをフィルタリングします。私は有効でないカテゴリを持つすべての行を無視したい。彼らはカテゴリがリストではなく、単一の要素であるため、残念ながら私のアプローチは動作しませんmodel.getCategoriesDataFrameを配列でフィルタリングする列
def checkIncomingData(model: Model, incomingData: DataFrame) : DataFrame = {
val list = model.getCategories.toList
sc.broadcast(list)
incomingData.filter(incomingData("categories").isin(list))
}
にないとき、彼らは有効ではありません。それを誰が作っていいのか?
ブロードキャストはここでは効果がありません。 –
すみません。私は質問の文脈の中で自分の答えを維持しようとした –
評価の順序について考えてみてください。 'isin'の引数は、ドライバで熱心に評価されます。 'lncomingData.filter($" categories ".isin(list))'と違いはありません。 –