parquet

0熱

1答えて

Scalaを使用してSparkでParquetファイルとして約120列のフラットなデータ構造を格納しようとしています。ここで私はそれについて行くことに決めました、私はそれが現在不器用なように見えるように、それをより良くするいくつかの提案やアイデアが必要です。は火花のように見える（使用スパークは、個々のエンティティへの複合列を分割するために爆発上記のすべてのケースのクラスが含まれますが一つの

2熱

1答えて

寄木細工：メタデータとcommon_metadata

の違いメタデータファイルを書き込み、ThriftParquetWriterは、実際には2つのファイルを生成します。_metadataと_common_metadata https://github.com/Parquet/parquet-mr/blob/master/parquet-hadoop/src/main/java/parquet/hadoop/ParquetFileWriter.java

1熱

2答えて

スパークSQLでネストされた属性にアクセスする方法

テーブル（寄木細工）に格納されているjsonファイルのネストされた属性にアクセスしようとしています。私はテーブルのすべてのレコードにアクセスすることができます select * from test; しかし、私のようにクエリを記述することで、ネストされた属性にアクセスすることはできませんよ：ヴァルタブ= sqlContext.sql（「テストLIMIT 1からテキスト、user.screen_n

0熱

1答えて

sql conf nullpointer寄木細工

私はSpark Echoシステムの新機能で、CSVから寄せ木にデータを書き込もうとしていますが、NullPointerExceptionで失敗します。私が何が欠けているか分からない。 case class PdRecordData(id: String, dates: String, dayOfWeek: String, pdDistrict: String,address: String, l

11熱

2答えて

ビッグデータシグナル解析：シグナルデータを保存して問い合わせるためのより良い方法

私はHadoop/Sparkでいくつかのシグナル分析を行い、プロセス全体をどのように構築するかについて助言が必要です。信号が、今私たちはSqoopで読まれ、に似てスキーマを使用して、HDFS上のファイルに変換されますことを、データベースに格納されています。 <Measure ID> <Source ID> <Measure timestamp> <Signal values> 信号値は浮動小

0熱

1答えて

JavaのAvro-Parquetファイルから特定のフィールドを読み取る方法は？

Javaのavro-parquetファイルからフィールドのサブセットを読み取るにはどうすればよいですか？私は、格納されたレコードのサブセットであるavroスキーマを定義し、それらを読むことができると考えましたが、例外が発生します。 ClassBののフィールドがにClassAのサブセットですクラスA ClassBの：ここは私が2つのアブロスキーマを持ってそれを解決するためにをしようとした方

1熱

1答えて

PySparkで最大のパーケットブロックサイズを指定

CSVファイルをパーケットファイルに変換することはできますが、パーケットファイルは2〜3MBのファイルに分割されます。一例として〜25GBのCSVは、700を超えるファイルを含むParquetファイルに変換されます。私の研究によると、256MBと1GBの間でなければならないことがわかります。どのようにサイズを指定するのですか？私は、ImpalaがPARQUET_FILE_SIZE経由で行っている

0熱

1答えて

スパークの寄木細工のネストした値を平坦化

私は寄木細工のファイルを持っています。私はSparkを使ってロードしました。そして、値の1つはネストされたキー、値のペアです。どのように平らにするのですか？ df.printSchema root |-- location: string (nullable = true) |-- properties: string (nullable = true) texas,{"key":{"

1熱

2答えて

RDDメモリフットプリント（火花）

メモリフットプリントのコンセプトについてはわかりません。たとえば、寄木細工のファイルをロードするとき。 1GBとSparkでRDDを作成すると、各RDDのメモリフードプリントはどうなりますか？

1熱

2答えて

apache nifi、hdfs parquet format

私はNIFIの初心者です。ポートから読み込んで、寄木張りの形式でhdfsに書き込むのが私の研究で、KiteSDKと呼ばれるものがあり、これを寄木張りの形式私はそうですか？アドバイスをしてください。