2016-04-02 3 views
1

SparkのドキュメントではHashingTFフィーチャーを使用すると書かれていますが、変換関数が入力として期待するものは不明です。 http://spark.apache.org/docs/latest/mllib-feature-extraction.html#tf-idfPythonを使用したApache Spark TFIDF

私はチュートリアルのコード実行してみました:

from pyspark import SparkContext 
from pyspark.mllib.feature import HashingTF 

sc = SparkContext() 

# Load documents (one per line). 
documents = sc.textFile("...").map(lambda line: line.split(" ")) 

hashingTF = HashingTF() 
tf = hashingTF.transform(documents) 

を私は次のエラーを取得する:エラーに基づいて

Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
    File "/Users/salloumm/spark-1.6.0-bin-hadoop2.6/python/pyspark/ml/pipeline.py", line 114, in transform 
    return self._transform(dataset) 
    File "/Users/salloumm/spark-1.6.0-bin-hadoop2.6/python/pyspark/ml/wrapper.py", line 148, in _transform 
    return DataFrame(self._java_obj.transform(dataset._jdf), dataset.sql_ctx) 
AttributeError: 'list' object has no attribute '_jdf' 
+0

試したコードを正確に表示できますか? –

+0

私はこのリンク(Pythonの例)に示されている最初の例を試しました。http://spark.apache.org/docs/latest/mllib-feature-extraction.html#tf-idf入力として単純なテキストファイルを使用しました。 – user2388191

答えて

3

あなたはあなたが従わない明確で示されてきましたチュートリアルまたは質問に含まれるコードを使用します。

このエラーはpyspark.mllib.feature.HashingTFの代わりにfrom pyspark.ml.feature.HashingTFを使用した結果です。あなたの環境をきれいにして、正しいインポートを使用していることを確認してください。

関連する問題