2016-06-29 10 views
0

KDDカップデータセットの異常検出のためのスカラコードがあります。 コードがhttps://github.com/prashantprakash/KDDDataResearch/blob/master/Code/approach1Plus2/src/main/scala/PCA.scalaRDDをDStreamに変換してStreamingKMeansアルゴリズムをApache Sparkに適用するMlLib

である私は、「{(DIST <しきい値)場合は、」MlLibからStreamingKMeansアルゴリズムを使用して、新しい技術を試してみて、上記のコードの行288が真である時はいつでも私のStreamingKmeansモデルを更新したかったです。テストポイントが通常と分類されている場合は、KMeansモデルを新しい「ノーマルデータポイント」で更新します。

私はStreamingKmeansがDStreamの形式でデータを受け取ることがわかります。 "既存のRDDをDstreamに変換してください。"

私はリンクhttp://apache-spark-user-list.1001560.n3.nabble.com/RDD-to-DStream-td11145.htmlを見つけましたが、それはあまり役に立ちませんでした。

また、問題を解決するためのより良い設計がある場合はアドバイスをお願いします。

答えて

0

私が知る限り、RDDはデータの集合であるため、RDDはDStreamに変換できませんが、DStreamは受信データを参照する概念なので、RDDはDStreamに変換できません。

StreamingKMeansを使用する場合は、作成したデータをRDDに変換し、代わりにKafkaUtils.createDirectStreamまたはssc.textFileStreamを使用してDStreamに変換します。

希望すると便利です。

+0

"queueStream"メソッドを使用してRDDをDStreamに変換することができます。[link](https://github.com/Rohithyeravothula/Spark-Examples/blob/master/src/main/scala/RDDtoDStreamExample.scala )(21行目から23行目まで) –

関連する問題