parquet

    0

    1答えて

    Scalaを使用してSparkでParquetファイルとして約120列のフラットなデータ構造を格納しようとしています。 ここで私はそれについて行くことに決めました、私はそれが現在不器用なように見えるように、それをより良くするいくつかの提案やアイデアが必要です。 は火花のように見える( 使用スパークは、個々のエンティティへの複合列を分割するために爆発上記のすべてのケースのクラスが含まれます が一つの

    2

    1答えて

    の違いメタデータファイルを書き込み、ThriftParquetWriterは、実際には2つのファイルを生成します。_metadataと_common_metadata https://github.com/Parquet/parquet-mr/blob/master/parquet-hadoop/src/main/java/parquet/hadoop/ParquetFileWriter.java

    1

    2答えて

    テーブル(寄木細工)に格納されているjsonファイルのネストされた属性にアクセスしようとしています。私はテーブルのすべてのレコードにアクセスすることができます select * from test; しかし、私のようにクエリを記述することで、ネストされた属性にアクセスすることはできませんよ: ヴァルタブ= sqlContext.sql(「テストLIMIT 1からテキスト、user.screen_n

    0

    1答えて

    私はSpark Echoシステムの新機能で、CSVから寄せ木にデータを書き込もうとしていますが、NullPointerExceptionで失敗します。私が何が欠けているか分からない。 case class PdRecordData(id: String, dates: String, dayOfWeek: String, pdDistrict: String,address: String, l

    11

    2答えて

    私はHadoop/Sparkでいくつかのシグナル分析を行い、プロセス全体をどのように構築するかについて助言が必要です。 信号が、今私たちはSqoopで読まれ、に似てスキーマを使用して、HDFS上のファイルに変換されますことを、データベースに格納されています。 <Measure ID> <Source ID> <Measure timestamp> <Signal values> 信号値は浮動小

    0

    1答えて

    Javaのavro-parquetファイルからフィールドのサブセットを読み取るにはどうすればよいですか? 私は、格納されたレコードのサブセットであるavroスキーマを定義し、それらを読むことができると考えましたが、例外が発生します。 ClassBののフィールドがにClassAのサブセットです クラスA ClassBの :ここ は私が2つのアブロスキーマを持ってそれを解決するために をしようとした方

    1

    1答えて

    CSVファイルをパーケットファイルに変換することはできますが、パーケットファイルは2〜3MBのファイルに分割されます。一例として〜25GBのCSVは、700を超えるファイルを含むParquetファイルに変換されます。私の研究によると、256MBと1GBの間でなければならないことがわかります。どのようにサイズを指定するのですか? 私は、ImpalaがPARQUET_FILE_SIZE経由で行っている

    0

    1答えて

    私は寄木細工のファイルを持っています。私はSparkを使ってロードしました。そして、値の1つはネストされたキー、値のペアです。どのように平らにするのですか? df.printSchema root |-- location: string (nullable = true) |-- properties: string (nullable = true) texas,{"key":{"

    1

    2答えて

    メモリフットプリントのコンセプトについてはわかりません。たとえば、寄木細工のファイルをロードするとき。 1GBとSparkでRDDを作成すると、各RDDのメモリフードプリントはどうなりますか?

    1

    2答えて

    私はNIFIの初心者です。ポートから読み込んで、寄木張りの形式でhdfsに書き込むのが私の研究で、KiteSDKと呼ばれるものがあり、これを寄木張りの形式私はそうですか?アドバイスをしてください。