2017-02-09 8 views
0

MLLib Ratingオブジェクト(ratingTimestamp、Rating(userID、productID、rating))を使用して、製品のRDD(製品ID、名前)とそれらの製品の人物評価のRDDを取得しました。RDDの要素を最小限に抑える

私はこれらの作業を行う前に、1つの5つ星レビューの製品がたくさんあるので、レビュー数が少なすぎる製品、たとえば500ほどの製品を除外して削除したいまたは何でも。

私は評価の数でソートされた製品IDのマップを作成するには、このコードを使用しています:

val mostRated = ratings.map(_._2.product) 
         .countByValue 
         .toSeq 
         .sortBy(- _._2) 
         .map(_._1) 

が、これは私のすべての項目を与え、私は十分に持っていないものをフィルタリングする必要があります。私は上記のfilter()メソッドを試してみましたが、私が望む結果を得るために何を与えるべきか分かりませんでした。

答えて

0

は、それを解決だけでソートする前にこのフィルタを追加する必要がありました:

.filter(x => x._2 > 1000)

(1000件のレビュー以上、例えば用)
関連する問題