HDFSにランダムファイルを書き込む - PySpark

これを行う方法の例はありませんでした。私はPython 3環境でPySpark 2.0を使っています。ランダムデータ、バイナリデータ、.jpgデータ、ランダムな文字列があります。データを元のストレージに戻すだけで済みます。例えばHDFSにランダムファイルを書き込む - PySpark

：

import os 
with open(os.path.join(base_dir, 'RF_model.txt'), "w") as file1: 
    toFile = raw_input(RF_model.toDebugString()) 
    file1.write(toFile)

（上記は動作しません）

ありがとう！

私は私はあなたが書きたいことを前提としていたとき、私は右の午前望んRF_model.toDebugString（）出力----

Tree 0: 
    If (feature 0 <= 64.0) 
    If (feature 2 <= 212.0) 
     If (feature 3 <= 0.0) 
     If (feature 2 <= 154.0) 
     Predict: 1.0 
     Else (feature 2 > 154.0) 
     Predict: 1.0 
     Else (feature 3 > 0.0) 
     If (feature 2 <= 147.0) 
     Predict: 0.0 
     Else (feature 2 > 147.0) 
     Predict: 0.0 
    Else (feature 2 > 212.0) 
     If (feature 2 <= 375.0) 
     If (feature 3 <= 0.0) 
     Predict: 0.0 
     Else (feature 3 > 0.0) 
     Predict: 0.0 
     Else (feature 2 > 375.0) 
     If (feature 0 <= 22.0) 
     Predict: 0.0 
     Else (feature 0 > 22.0) 
     Predict: 0.0 
    Else (feature 0 > 64.0) 
    If (feature 2 <= 239.0) 
     If (feature 3 <= 0.0) 
     If (feature 2 <= 200.0) 
     Predict: 0.0 
     Else (feature 2 > 200.0) 
     Predict: 0.0 
     Else (feature 3 > 0.0) 
     If (feature 2 <= 124.0) 
     Predict: 0.0 
     Else (feature 2 > 124.0) 
     Predict: 0.0 
    Else (feature 2 > 239.0) 
     If (feature 2 <= 375.0) 
     If (feature 1 <= 67.0) 
     Predict: 0.0 
     Else (feature 1 > 67.0) 
     Predict: 0.0 
     Else (feature 2 > 375.0) 
     If (feature 1 <= 63.0) 
     Predict: 0.0 
     Else (feature 1 > 63.0) 
     Predict: 0.0 
    Tree 1: 
    If (feature 0 <= 64.0) 
    If (feature 2 <= 224.0) 
     If (feature 3 <= 0.0) 
     If (feature 2 <= 170.0) 
     Predict: 1.0 
     Else (feature 2 > 170.0) 
     Predict: 1.0 
     Else (feature 3 > 0.0) 
     If (feature 2 <= 158.0) 
     Predict: 0.0 
     Else (feature 2 > 158.0) 
     Predict: 0.0 
    Else (feature 2 > 224.0) 
     If (feature 2 <= 375.0) 
     If (feature 3 <= 0.0) 
     Predict: 0.0 
     Else (feature 3 > 0.0) 
     Predict: 0.0

出典

2017-04-19 David Crook

'toFile = raw_input（RF_model.toDebugString（））'これは実現すると思われますか？ rddの '.toDebugString（）'は、このRDD（RF_model）の記述とデバッグのための再帰依存性を返します。 – Pushkr

これは単なる文字列です。上記に追加します。 –

EDIT --------------

# imp step : first parallelize data that you need to save 
rdd = sc.parallelize([str(RF_Model.toDebugString())]) 

# then save as text file , using below if underline storage is HDFS 
rdd.saveAsTextFile('hdfs://'+base_dir+"/RF_model.txt")

またはあなただけのローカルファイルシステムに保存したい場合は - - あなたは.saveAsTextFileを使用してテキストファイルとして任意の並列化データを保存することができますpysparkでテキストファイルへ.toDebugString()の出力、

rdd.saveAsTextFile("file:///"+base_dir+"/RF_model.txt")

出典

2017-04-19 20:31:40 Pushkr

HDFSにランダムファイルを書き込む - PySpark

答えて

関連する問題