データソースレベルでファンクションを実行する方法（また、Catalystをバイパスする）

Apache Spark™は、DataSource APIを使用して外部データソースと統合するためのプラガブルなメカニズムを提供します。これらのAPIを使用すると、Sparkは外部データソースからデータを読み取ることができます。また、Sparkで解析されたデータを外部データソースに書き戻すこともできます。また、DataSource APIは、クエリーのパフォーマンスを大幅に向上させるフィルターのプッシュダウンと列のプルーニングもサポートしています。データソースレベルでファンクションを実行する方法（また、Catalystをバイパスする）

Apache sparkもネイティブ関数（ネイティブまたはユーザー定義）を実行できるデータソース用の能力（またはインターフェイス）を提供しているかどうかを知りたいですか？

私たちは、独自のデータソースを持って、それが最大（）、分（）、サイズ（）など

出典

2017-09-18 user1393608

TLのような関数に結果を出すことができます; DRはありません、それは不可能です。

spark SQLは、より開発者に優しいインターフェイスとして関数を使用して、InternalRow（使用可能な行ごとに0行、1行以上の行が与えられ、式がユーザー定義の関数かユーザーかを指定するときに、それぞれ定義された集約関数）。

DataSourceは、Column（または特に触媒表現）と相互作用しないか、またはその逆でもありません。彼らは別々です。

非常に低レベルになるためには、Max触媒式を自分で確認し、実行時に何が生成されるかを知ることができます。

出典

2017-09-18 09:17:36

データソースレベルでファンクションを実行する方法（また、Catalystをバイパスする）

答えて

関連する問題