Sparkでローカル外れ値ファクタを実装しようとしています。だから私はファイルから読み込んだポイントのセットを持っていて、各ポイントに対してN個の最も近いネイバーを見つける。各点は、私が2 RDDS を持っている今SparkでScalaを使用して2つのRDDに参加
のでzipWithIndexを使用して、それに与えられたインデックス()コマンドを持ってまず
RDD[(Index:Long, Array[(NeighborIndex:Long, Distance:Double)])]
ロングはそのインデックスを表し、配列はロングとそのNの最近傍から構成さ
第二に、与えられた点から自分の距離を表すこれらの隣人のインデックス位置を表すとダブル
RDD[(Index:Long,LocalReachabilityDensity:Double)]
は、ロング再び与えられた点のインデックスを表し、そしてダブル
そのローカル到達可能性の密度を表し、すべてのポイントが含まれているRDD、及びそのNの最も近い隣人の配列とそのですだから、基本的には、ここでローカル到達可能性密度
RDD[(Index:Long, Array[(NeighborIndex:Long,LocalReachabilityDensity:Double)])]
は、ロングポイントのインデックスを表すことになり、かつ配列はそのインデックス値とローカル到達可能性の密度で、そのN最も近い隣人であろう。
私の理解によれば、最初のRDDでマップを実行し、その配列内の値をローカル到達可能性密度を含む2番目のRDDと結合し、与えられたすべてのインデックスのローカル到達可能密度を取得する必要があります。そのN人の隣人。しかし、私はこれを達成する方法がわかりません。いずれかが私を助けることができれば、それは与えられた偉大な
最初にデカルトと結合し、最初にデカルトを結合し、遠方にフィルタリングします – BlackBear