私はBig Dataを初めて使い始めましたが、現在Apache Sparkを学んでいます。私は、同じマシンにマスターとスレーブを持つスタンドアロンのクラスタを作成しました。 SPARK_WORKER_MEMORYが "1g"に設定され、SPARK_LOCAL_IPが私のIPアドレスを指しています。だから、私は単純にSparkSessionを作成するために、Pythonのコードを書いた:あなたはそう hereローカルスタンドアロンクラスタでSparkSessionが長すぎます
を見ることができるようにそれは、約6秒を取っている
from pyspark.sql import SparkSession
from time import time
def main():
start_time = time()
sparkSession = (SparkSession.builder
.master("spark://nilson:7077")
.appName("pyclient")
.config("spark.executor.memory", "512m")
.getOrCreate())
elapsed_time = time() - start_time
print ("\n\nelapsed time: %.4gs" %elapsed_time)
return
if __name__ == '__main__':
main()
、私の質問は:
本当にそれをしませんこの時間がかかるか、または私の環境変数に何かがありませんか?
ちょうど2行のデータを含む単純なjsonファイルを読み込もうとしました。全体のプロセスは、それを開いてその内容を印刷するために約13秒かかった。
ありがとうございます。
はい、期待されます。非常に多くのバックグラウンドプロセスが実行してコードを実行し、ルートログレベルをデバッグに設定してすべてのプロセスログを出力します。 –