2017-08-11 19 views
0

私が作成したモデルを評価しようとしています。モデルは出力、idsのリスト、およびそれらの対応するエラー構成(スコア)を与え、idはこのスコアに応じてソートされます。 idが疑わしいほどスコアが高いほどそうだとします。スパーク - 評価の問題

例:

ids: t4, c1, s3, d5, a2, ... 
score: 18, 15, 13, 5, 2, ... 

はまた、私は本当の不審なIDが含まれている別のリストを持っています。

suspicious: c1,d5 

私の目標は、私の疑わしいリスト内のIDのx%はスコアリストのトップのy%であると言うことができるようにすることです。

ご意見くださいか?スパークの実装はあなたから寛大であるでしょう!ここ

答えて

0

はパンダのデータフレームを使用して、私がやったことです:

  • 私は、すべてのデータが含まれているデータフレームのDFを作成し、セリエに不審なデータをロード。
  • 私はdfにanotheカラムを追加しました。レコードのラベルがこの最終データフレーム(ID、スコア、ラベル)を持つ
  • であるかどうかに基づいています。ラベルに基づいてカウントを行い、そのようなステートメントを持つことができました質問に。
関連する問題