KDDカップデータセットの異常検出のためのスカラコードがあります。 コードがhttps://github.com/prashantprakash/KDDDataResearch/blob/master/Code/approach1Plus2/src/main/scala/PCA.scalaRDDをDStreamに変換してStreamingKMeansアルゴリズムをApache Sparkに適用するMlLib
である私は、「{(DIST <しきい値)場合は、」MlLibからStreamingKMeansアルゴリズムを使用して、新しい技術を試してみて、上記のコードの行288が真である時はいつでも私のStreamingKmeansモデルを更新したかったです。テストポイントが通常と分類されている場合は、KMeansモデルを新しい「ノーマルデータポイント」で更新します。
私はStreamingKmeansがDStreamの形式でデータを受け取ることがわかります。 "既存のRDDをDstreamに変換してください。"
私はリンクhttp://apache-spark-user-list.1001560.n3.nabble.com/RDD-to-DStream-td11145.htmlを見つけましたが、それはあまり役に立ちませんでした。
また、問題を解決するためのより良い設計がある場合はアドバイスをお願いします。
"queueStream"メソッドを使用してRDDをDStreamに変換することができます。[link](https://github.com/Rohithyeravothula/Spark-Examples/blob/master/src/main/scala/RDDtoDStreamExample.scala )(21行目から23行目まで) –