2017-06-13 10 views
1

sparkからscalaにcsvファイルをロードしようとしています。私たちは、以下の二つの異なる構文を使用して行うことができます参照してください。spark/scalaでcsvファイルを効率的にロードする

sqlContext.read.format("csv").options(option).load(path) 
    sqlContext.read.options(option).csv(path) 

優れたパフォーマンスを提供し、これらの2との違いは何ですか? ありがとう

答えて

3

違いはありません。

なぜ両方とも存在するのですか?

  • .format(fmt).load(path)方法が火花を再コンパイルすることなく、より多くのフォーマットを追加することができます柔軟、プラガブル APIです - あなたは、カスタムデータソースの実装のためのエイリアスを登録し、スパークは、それらを使用することができます。 「CSV」(パッケージスパークバイナリの外)used to beなカスタム実装が、それは今「組み込み」データソースのための速記法(csvparquetjsonなどがあります
  • プロジェクトの一部です... )コンパイル時にコードが少し簡単になります(コンパイル時に検証されます)

最終的に、両方ともCSVデータソースを作成し、データをロードするために使用します。

ボトムライン、サポートされているフォーマットの場合は、「簡略化」メソッドを選択する必要があります。 csv(path)

関連する問題