0

とエラーが私はクーズー1.2.0は、クラスタにインストールされている クーズー:KuduStorageHandler

>>> from os.path import expanduser, join, abspath 
>>> from pyspark.sql import SparkSession 
>>> from pyspark.sql import Row 
>>> spark = SparkSession.builder \ 
     .master("local") \ 
     .appName("HivePyspark") \ 
     .config("hive.metastore.warehouse.dir", "hdfs:///user/hive/warehouse") \ 
     .enableHiveSupport() \ 
     .getOrCreate() 
>>> spark.sql("select count(*) from mySchema.myTable").show() 

PySpark 2.1.0

使用クーズーとして格納されたデータを読み込むしようとしています。それらはハイブ/インパラテーブルです。

私は最後の行を実行すると、私は次のエラーを取得する:

. 
. 
. 
: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Error in loading storage handler.com.cloudera.kudu.hive.KuduStorageHandler 
. 
. 
. 
aused by: org.apache.hadoop.hive.ql.metadata.HiveException: Error in loading storage handler.com.cloudera.kudu.hive.KuduStorageHandler 
    at org.apache.hadoop.hive.ql.metadata.HiveUtils.getStorageHandler(HiveUtils.java:315) 
    at org.apache.hadoop.hive.ql.metadata.Table.getStorageHandler(Table.java:284) 
    ... 61 more 
Caused by: java.lang.ClassNotFoundException: com.cloudera.kudu.hive.KuduStorageHandler 

私は、次のリソースを参照しています:

私はこのエラーを過ぎて移動できるように、私は私のpysparkプログラムにクーズー関連の依存関係を含めることができる方法を知って興味があります。

答えて

0

私はこの問題を解決する方法はpyspark2シェルにまたは私は同じ問題を抱えている

+0

spark2-submitコマンドにクーズー、スパークのため、それぞれの瓶を渡すことだった、と私はそれが仕事を得ることができません。あなたのコードを共有できますか? 私はkudu-spark2 jarをpyspark2に渡しました.sparkcontextは 'spark'変数として正しく作成されています。しかし、 'spark.sql(...)。show()'しようとすると 'storage handler.com.cloudera.kudu.hive.KuduStorageHandler'の読み込み中にエラーが発生します – Susensio

+0

コードは上記と同じです。唯一の違いは私の設定に従ってmavenパッケージを提供することです:https://mvnrepository.com/artifact/org.apache.kudu/kudu-spark2_2.11 ヘルパーコードとして:https://github.com/ asarraf/KuduPyspark/blob/master/kuduspark2.template.py –

関連する問題