私は、それぞれ709.7MBの8つのcsvファイルに分割されたS3バケット内にデータフレームを持っています。S3からpysparkのEMRクラスタのノードにファイルをロード
私は8ノード(r3.4xlarge:16 vCPU、122 RAMと320ディスク)でEMRクラスタを作成します。
マイスパーク構成は以下のとおりです。
num-executors='23'
executor-memory='34G'
executor-cores='5'
私は私のデータフレームをロードするために、このPythonスクリプトを記述します。
df = sqlContext.read.load("s3://my-bucket/my-dataframe/*",
format='com.databricks.spark.csv',
header='true',
delimiter='\t',
inferSchema='true')
問題: 私はスパーク履歴サーバでステージを見て、ここに結果があります。
3つのCSVファイルが正しくロードされていません。 誰かがこの問題を解決する解決策を持っているか、原因の考えをしてください。