2017-09-18 6 views
1

Apache Spark™は、DataSource APIを使用して外部データソースと統合するためのプラガブルなメカニズムを提供します。これらのAPIを使用すると、Sparkは外部データソースからデータを読み取ることができます。また、Sparkで解析されたデータを外部データソースに書き戻すこともできます。また、DataSource APIは、クエリーのパフォーマンスを大幅に向上させるフィルターのプッシュダウンと列のプルーニングもサポートしています。データソースレベルでファンクションを実行する方法(また、Catalystをバイパスする)

Apache sparkもネイティブ関数(ネイティブまたはユーザー定義)を実行できるデータソース用の能力(またはインターフェイス) を提供しているかどうかを知りたいですか?

私たちは、独自のデータソースを持って、それが最大()、分()、サイズ()など

答えて

1

TLのような関数に結果を出すことができます; DRはありません、それは不可能です。

spark SQLは、より開発者に優しいインターフェイスとして関数を使用して、InternalRow(使用可能な行ごとに0行、1行以上の行が与えられ、式がユーザー定義の関数かユーザーかを指定するときに、それぞれ定義された集約関数)。

DataSourceは、Column(または特に触媒表現)と相互作用しないか、またはその逆でもありません。彼らは別々です。

非常に低レベルになるためには、Max触媒式を自分で確認し、実行時に何が生成されるかを知ることができます。

関連する問題