2017-04-19 16 views
0

これを行う方法の例はありませんでした。私はPython 3環境でPySpark 2.0を使っています。ランダムデータ、バイナリデータ、.jpgデータ、ランダムな文字列があります。データを元のストレージに戻すだけで済みます。例えばHDFSにランダムファイルを書き込む - PySpark

import os 
with open(os.path.join(base_dir, 'RF_model.txt'), "w") as file1: 
    toFile = raw_input(RF_model.toDebugString()) 
    file1.write(toFile) 

(上記は動作しません)

ありがとう!

私は私はあなたが書きたいことを前提としていたとき、私は右の午前望んRF_model.toDebugString()出力----

Tree 0: 
    If (feature 0 <= 64.0) 
    If (feature 2 <= 212.0) 
     If (feature 3 <= 0.0) 
     If (feature 2 <= 154.0) 
     Predict: 1.0 
     Else (feature 2 > 154.0) 
     Predict: 1.0 
     Else (feature 3 > 0.0) 
     If (feature 2 <= 147.0) 
     Predict: 0.0 
     Else (feature 2 > 147.0) 
     Predict: 0.0 
    Else (feature 2 > 212.0) 
     If (feature 2 <= 375.0) 
     If (feature 3 <= 0.0) 
     Predict: 0.0 
     Else (feature 3 > 0.0) 
     Predict: 0.0 
     Else (feature 2 > 375.0) 
     If (feature 0 <= 22.0) 
     Predict: 0.0 
     Else (feature 0 > 22.0) 
     Predict: 0.0 
    Else (feature 0 > 64.0) 
    If (feature 2 <= 239.0) 
     If (feature 3 <= 0.0) 
     If (feature 2 <= 200.0) 
     Predict: 0.0 
     Else (feature 2 > 200.0) 
     Predict: 0.0 
     Else (feature 3 > 0.0) 
     If (feature 2 <= 124.0) 
     Predict: 0.0 
     Else (feature 2 > 124.0) 
     Predict: 0.0 
    Else (feature 2 > 239.0) 
     If (feature 2 <= 375.0) 
     If (feature 1 <= 67.0) 
     Predict: 0.0 
     Else (feature 1 > 67.0) 
     Predict: 0.0 
     Else (feature 2 > 375.0) 
     If (feature 1 <= 63.0) 
     Predict: 0.0 
     Else (feature 1 > 63.0) 
     Predict: 0.0 
    Tree 1: 
    If (feature 0 <= 64.0) 
    If (feature 2 <= 224.0) 
     If (feature 3 <= 0.0) 
     If (feature 2 <= 170.0) 
     Predict: 1.0 
     Else (feature 2 > 170.0) 
     Predict: 1.0 
     Else (feature 3 > 0.0) 
     If (feature 2 <= 158.0) 
     Predict: 0.0 
     Else (feature 2 > 158.0) 
     Predict: 0.0 
    Else (feature 2 > 224.0) 
     If (feature 2 <= 375.0) 
     If (feature 3 <= 0.0) 
     Predict: 0.0 
     Else (feature 3 > 0.0) 
     Predict: 0.0 
+0

'toFile = raw_input(RF_model.toDebugString())'これは実現すると思われますか? rddの '.toDebugString()'は、このRDD(RF_model)の記述とデバッグのための再帰依存性を返します。 – Pushkr

+0

これは単なる文字列です。上記に追加します。 –

答えて

1

EDIT --------------

# imp step : first parallelize data that you need to save 
rdd = sc.parallelize([str(RF_Model.toDebugString())]) 

# then save as text file , using below if underline storage is HDFS 
rdd.saveAsTextFile('hdfs://'+base_dir+"/RF_model.txt") 

またはあなただけのローカルファイルシステムに保存したい場合は - - あなたは.saveAsTextFileを使用してテキストファイルとして任意の並列化データを保存することができますpysparkでテキストファイルへ.toDebugString()の出力、

rdd.saveAsTextFile("file:///"+base_dir+"/RF_model.txt") 
関連する問題