2017-08-01 7 views
0

次のコードでは、IDFおよびTF-IDFベクトルの計算中にデータをシャッフルする必要がありますか?Spark MLlib IDFシャッフルデータはありますか?

val hashingTF = new HashingTF() 
val tf: RDD[Vector] = hashingTF.transform(documents) 
tf.cache() 
val idf = new IDF().fit(tf) 
val tfidf: RDD[Vector] = idf.transform(tf) 

答えて

0

それはシャッフルしない:

  • どちらtransform方法はRDD.map
  • IDF.fitRDD.treeAggregateを使用して実装されて使用して実装されています。

の方法は、miDocFreqが低いときにはまだかなり高価です。

関連する問題