2016-10-11 10 views
-2

私はヘッダーのないテキストファイルを持っていますが、どのようにしてそれをspark dataframe apiで読み込み、ヘッダーを指定できますか? ( "偽"、 "ヘッダ")私のスキーマspark dataframeヘッダなしのテキストファイルを読む

SAMPLE_DATA = spark.read.optionを指定する方法がある。テキスト(サンプル)

印刷 "のデータサイズは、{}である" フォーマット(SAMPLE_DATA。カウント())

プリントタイプ(SAMPLE_DATA)

印刷sample_data.take(2)

答えて

0

まず、CSVなどのファイルを保存します。スキーマを指定できます。

schema = StructType([ \ 
    StructField("column1", StringType(), True), \ 
    StructField("column2", DoubleType(), True), \ 
    StructField("column3", IntegerType(), True)]) 

などです。 あなたはスパーク2.0 +使用している場合:

sales = sqlContext.read.format('com.databricks.spark.csv')\ 
    .options(header='true', delimiter='whatever youre using as delimiter')\ 
    .load('file.csv', schema = schema) 
+0

どうもありがとう:あなたが火花< 2.0を使用している場合

spark.read.csv( "file.csv", header=True, schema=schema ) 

を。それはPythonでも可能ですか、それのスキーマ部分です。 –

+0

私の悪い..これはPythonです。 –

関連する問題