0
私は巨大なデータフレームを持っている "カテゴリ"列は、レストラン、ランドリーサービス、ディスコテックなどのビジネスのさまざまな属性を持っています。私が必要なのは、.filter
のようなデータフレーム見えるかもしれません。ここでの問題は、「カテゴリ」は、セルが「レストラン、食品、ナイトライフ」のような文字列の配列であることです。何か案は? (スカラ[2.10.6]スパーク[2.0.1] Hadoopの[2.7.2])スパークノート:各列セルが文字列の配列である列の値に基づいて行をフィルタリングするにはどうすればよいですか?
私のようなSQLスタイルのクエリを試してみました:
val countResult = sqlContext.sql(
"SELECT business.neighborhood, business.state, business.stars, business.categories
FROM business where business.categories == Restaurants group by business.state"
).collect()
display(countResult)
と
dfBusiness.filter($"categories" == "Restaurants").show()
と
をdfBusiness.filter($"categories" == ["Restaurants"]).show()
私は各セルを繰り返し処理する必要があるかもしれないと思いますが、どうやってそれを行うのか分かりません。
アイデア?
これまでに何を試みましたか? – Vidya
良いスタートに見えます。私はあなたの質問にあなたが使用しているSparkのバージョンを追加するべきだと思います。できるだけ完全で具体的なものであることは常に良いことです。ようこそ! – Vidya