spark-avro

    1

    1答えて

    私のavroスキーマでは、 "TOT_AMT"型を "bytes"型と論理型 "decimal"として定義しました。私は和関数を使用TOT_AMTカラムを合計しようとしたとき、それはエラーを「関数和がBinarytypeない数値型を必要とする」スロー、火花アブロdatabricksを用いてスパークのデータフレームを作成した後 。 カラムを 名= "TOT_AMT"、 "タイプ"、アブロスキーマで以

    0

    1答えて

    AVROを初めて使用しています。私たちはAVROスキーマを使ってデータを読み始めました。 ここでは、読んでいる間にデータを切り捨てる必要があるユースケースがあります。 は私のアブロschcema今すぐデータがこのようなものです。この { "name": "table", "namepsace": "csd", "type": "record", "field

    0

    1答えて

    私たちのプロジェクトにはscalaとpythonのコードがあり、avroでエンコードされたメッセージをkafkaに送る/消費する必要があります。 私はavroのコードをpythonとscalaを使ってkafkaに送信しています。私は次のようにTwitterの全単射ライブラリを使用してアブロエンコードされたメッセージを送信Scalaのコードでプロデューサーを持っている: val resourcesP

    0

    1答えて

    私はpysparkでavroファイルを読み込もうとしています。 How to read Avro file in PySparkから、spark-avroがこれを実行する最善の方法であることがわかりましたが、そのインストール方法はわかりませんGithub repo。ダウンロード可能なjarファイルはありません。自分で作成できますか?どうやって? クラスタ上で動作するIt's Spark 1.6(p

    5

    1答えて

    こんにちはを使用して複数の出力ディレクトリにアブロ書くために、MultipleTextOutputFormat Write to multiple outputs by key Spark - one Spark job を使用して1つのスパークジョブで複数の出力ディレクトリにテキストデータを書き込みに関するトピックがありますどのように私が求めるだろう私が欲しいもの、複数のディレクトリ にアブロデ

    0

    1答えて

    私は、HDFSにいくつかのavroファイルセットがあるシナリオを持っています。そしてHDFSのAVROデータファイル用にAvroスキーマファイルを生成する必要があります。Spark(https://github.com/databricks/spark-avro/blob/master/src/main/scala/com/databricks/spark/avro/SchemaConverter

    1

    1答えて

    私はハイブアブロテーブルを作成し、pysparkからそれを読み取ろうとします。基本的には、いくつかの分析を行うために、pysparkのこのハイブのavroテーブルに対して基本的なクエリを実行しようとしています。 from pyspark import SparkContext from pyspark.sql import HiveContext hive_context = HiveCon

    3

    1答えて

    Spark 1.6のDataFrames APIを使用してSpark Streamingアプリケーションを構築しようとしています。私がウサギの穴をあまりにも遠くまで掘り下げる前に、私は誰かが私にDataFramesがスキーマの異なるデータを扱う方法を理解するのを助けてくれることを願っていました。 考えられるのは、メッセージがAvroスキーマを使用してカフカに流入するという考えです。ストリーミングア