2016-08-01 15 views
0

私は、Amazon S3にあるavroファイルをZeppelinノートブックから読みたいと思っています。私はDatabricksがspark-avroという素晴らしいパッケージを持っていることを理解しています。このjarファイルを自分のクラスタにブートストラップして動作させるために必要な手順は何ですか?Amazon EMRクラスタにspark-avrojarをブートストラップする

私は val df = sqlContext.read.avro("s3n://path_to_avro_files_in_one_bucket/")

、私のノートパソコンでこれを書くとき、私は以下のエラーを取得する - <console>:34: error: value avro is not a member of org.apache.spark.sql.DataFrameReader

私はthisを見てきました。私はそこに掲載された解決策は、最新のバージョンのAmazon EMRでは動作しないと思います。

誰かが私に指示を与えることができれば、それは本当に助けになるでしょう。

答えて

0

ここでは、spark-avroの依存関係をどのように関連付けるかを示します。このメソッドは、他の依存関係をスパークさせるために使用します。

  1. は、あなたのスパークバージョンが火花アブロと互換性があることを確認してください。依存関係の詳細はhereです。

  2. 私は自分のspark-avroファイルをS3バケットに入れました。 hdfsやその他のストアを使うことができます。

  3. EMRクラスタの起動中に、コンフィギュレーションで次のJSONを追加し、 [{"classification":"spark-defaults", "properties":{"spark.files":"/path_to_spark-avro_jar_file", "spark.jars":"/path_to_spark-avro_jar_file"}, "configurations":[]}]

これは、これを行うための唯一の方法ではありません。詳細はlinkを参照してください。

関連する問題