2017-09-08 17 views
1

私はBig Dataを初めて使い始めましたが、現在Apache Sparkを学んでいます。私は、同じマシンにマスターとスレーブを持つスタンドアロンのクラスタを作成しました。 SPARK_WORKER_MEMORYが "1g"に設定され、SPARK_LOCAL_IPが私のIPアドレスを指しています。だから、私は単純にSparkSessionを作成するために、Pythonのコードを書いた:あなたはそう hereローカルスタンドアロンクラスタでSparkSessionが長すぎます

を見ることができるようにそれは、約6秒を取っている

from pyspark.sql import SparkSession 
from time import time 

def main(): 
    start_time = time() 
    sparkSession = (SparkSession.builder 
           .master("spark://nilson:7077") 
           .appName("pyclient") 
           .config("spark.executor.memory", "512m") 
           .getOrCreate()) 

    elapsed_time = time() - start_time 

    print ("\n\nelapsed time: %.4gs" %elapsed_time) 
    return 

if __name__ == '__main__': 
    main() 

、私の質問は:

本当にそれをしませんこの時間がかかるか、または私の環境変数に何かがありませんか?

ちょうど2行のデータを含む単純なjsonファイルを読み込もうとしました。全体のプロセスは、それを開いてその内容を印刷するために約13秒かかった。

ありがとうございます。

+1

はい、期待されます。非常に多くのバックグラウンドプロセスが実行してコードを実行し、ルートログレベルをデバッグに設定してすべてのプロセスログを出力します。 –

答えて

0

スパークは、大規模なデータ処理のエンジンであり、ロガーの設定のために表示されないジョブを起動する前に、多くの小さな家の持ち物があります。データサイズに関係なく、初期セットアップ手順が実行されます。

あなたがにロガーレベルを変更することにより、これらの内部ログの閲覧を開始することができます:ALL、DEBUG、ERROR、INFOは、OFF、

例えばをWARN sc.setLogLevel("ERROR") #default

関連する問題