値_1はorg.apache.spark.mllib.recommendation.Ratingのメンバーではありません

私はspark MLlib-scalaでアプリケーションを持っています。トレーニング、テスト、検証の3つのパーティにデータを分割したいと考えています。私は、SBTのコンパイルと私のプログラムをコンパイルするとき値_1はorg.apache.spark.mllib.recommendation.Ratingのメンバーではありません

val training_RDD = Ratingfiles.filter(x => x._1 < 6) 
     .values 
     .cache() 

val validation_RDD = Ratingfiles.filter(x => x._1 >= 6 && x._1 < 8) 
     .values 
     .cache()

、私はこのエラー：

value _1 is not a member of org.apache.spark.mllib.recommendation.Rating

スパークコア：1.4.1 火花MLlib：2.0.1 私のコードは次のようですScalaのバージョン：2.11.1 のSBTバージョン：コンパイラの主張として0.13.12

出典

2016-12-19 sirine

あなたはRatingfiles' 'の種類だかを示すことはできますか？ –

org.apache.spark.rdd.RDD [org.apache.spark.mllib.recommendation.Rating] = MapPartitionsRDD [2] – sirine

、org.apache.spark.mllib.recommendation.Ratingメンバーは（おそらくメンバーであるためにタプル、とそれを混乱している_1と呼ばれていません_1,_2など）。

Rating

は3人のメンバーがありますので、

case class Rating @Since("0.8.0") (
    @Since("0.8.0") user: Int, 
    @Since("0.8.0") product: Int, 
    @Since("0.8.0") rating: Double)

を - あなたはuserによってフィルタリングすることを意味している場合、単に_1するのではなく、そのメンバーにアクセス：

val training_RDD = Ratingfiles.filter(x => x.user < 6) 
    .cache() 

val validation_RDD = Ratingfiles.filter(x => x.user >= 6 && x.user < 8) 
    .cache()

出典

2016-12-19 15:34:28

パラメータタイムスタンプの最後の桁に基づいて、データを3つの重複しないサブセットに分割しました。ロングタイプです。 – sirine

何ですか？コンパイラのエラーによると、 'Ratingfiles'はタイプ' RDD [Rating] 'を持っています。これは、各レコードが回答に列挙されているメンバーを持つ' Rating'であることを意味します。あなたは "タイムスタンプ"で分けようとしていると言いますが、 "レーティング"にはタイムスタンプとは考えられないものは何もありません。あなたはRDDに何が入っていると思いますか（どの_タイプ？）？ –

私は3つのパーティーに私のファイルを分割しました、新しいRDDは、評価の種類を取る必要があります。 x => x._1でx => x._1に変更しました。これは問題ありませんが、今では "値"を受け入れていません。 – sirine