spark-avro

1熱

1答えて

私のavroスキーマでは、 "TOT_AMT"型を "bytes"型と論理型 "decimal"として定義しました。私は和関数を使用TOT_AMTカラムを合計しようとしたとき、それはエラーを「関数和がBinarytypeない数値型を必要とする」スロー、火花アブロdatabricksを用いてスパークのデータフレームを作成した後。カラムを名= "TOT_AMT"、 "タイプ"、アブロスキーマで以

0熱

1答えて

AVROを使用しているフィールドのデータ変換

AVROを初めて使用しています。私たちはAVROスキーマを使ってデータを読み始めました。ここでは、読んでいる間にデータを切り捨てる必要があるユースケースがあります。は私のアブロschcema今すぐデータがこのようなものです。この { "name": "table", "namepsace": "csd", "type": "record", "field

0熱

1答えて

Avro Kafka scalaとPythonの間の変換の問題

私たちのプロジェクトにはscalaとpythonのコードがあり、avroでエンコードされたメッセージをkafkaに送る/消費する必要があります。私はavroのコードをpythonとscalaを使ってkafkaに送信しています。私は次のようにTwitterの全単射ライブラリを使用してアブロエンコードされたメッセージを送信Scalaのコードでプロデューサーを持っている： val resourcesP

0熱

1答えて

spark-avroのインストール

私はpysparkでavroファイルを読み込もうとしています。 How to read Avro file in PySparkから、spark-avroがこれを実行する最善の方法であることがわかりましたが、そのインストール方法はわかりませんGithub repo。ダウンロード可能なjarファイルはありません。自分で作成できますか？どうやって？クラスタ上で動作するIt's Spark 1.6（p

5熱

1答えて

いくつかの類似したがある場合は、スパーク

こんにちはを使用して複数の出力ディレクトリにアブロ書くために、MultipleTextOutputFormat Write to multiple outputs by key Spark - one Spark job を使用して1つのスパークジョブで複数の出力ディレクトリにテキストデータを書き込みに関するトピックがありますどのように私が求めるだろう私が欲しいもの、複数のディレクトリにアブロデ

0熱

1答えて

HDFSでのAvroスキーマの生成

私は、HDFSにいくつかのavroファイルセットがあるシナリオを持っています。そしてHDFSのAVROデータファイル用にAvroスキーマファイルを生成する必要があります。Spark（https://github.com/databricks/spark-avro/blob/master/src/main/scala/com/databricks/spark/avro/SchemaConverter

1熱

1答えて

Pyspark +ハイブのアブロテーブル

私はハイブアブロテーブルを作成し、pysparkからそれを読み取ろうとします。基本的には、いくつかの分析を行うために、pysparkのこのハイブのavroテーブルに対して基本的なクエリを実行しようとしています。 from pyspark import SparkContext from pyspark.sql import HiveContext hive_context = HiveCon

3熱

1答えて

Spark Streamingアプリケーションの実行中にスキーマの変更を処理する

Spark 1.6のDataFrames APIを使用してSpark Streamingアプリケーションを構築しようとしています。私がウサギの穴をあまりにも遠くまで掘り下げる前に、私は誰かが私にDataFramesがスキーマの異なるデータを扱う方法を理解するのを助けてくれることを願っていました。考えられるのは、メッセージがAvroスキーマを使用してカフカに流入するという考えです。ストリーミングア