parquet

    1

    1答えて

    スキーマが常に進化しているJSON/XMLの入力が多様化しています。パフォーマンスの向上のために、Hadoop/Hive環境でORCまたはParquetフォーマットを使用してそれらを処理したい。 私は同じ目的を達成するための一般的なスタイルを知っています: JSONSerdeまたはXMLSerdeライブラリを使用して、まずこれらのserdeを使用してハイブテーブルを作成します。後でselect *

    0

    1答えて

    寄木細工のファイルは、Avroファイルから作成されます。今、私はPegにParquetファイルをロードする必要があります。以下は私がparquet-tools schemaコマンドから得たスキーマです。 message Logs { optional group SUPER1 { optional group FIELD1 (LIST) { repeated int

    1

    1答えて

    私は、このイメージが使用される。特にR.含むhttps://github.com/gettyimages/docker-spark基づくローカルスパークテストクラスタが見つかりません:sparkRこの例外が発生すると、寄木細工のファイルを読み込もうとhttps://hub.docker.com/r/possibly/spark/ 。寄木細工のファイルを読むことは、地元のスパークのインストールで問題

    0

    1答えて

    こんにちは私はgz.parquetファイルからデータを読み込む必要がありますが、方法はわかりません。インパラを試してみましたが、テーブル構造のないparquet-tools catと同じ結果になります。 P.S:スパークコードを改善するための提案は、大歓迎です。 私はツイッター=>水路=>カフカ=>スパークストリーミング=>ハイブ/ gz.parquetファイルで作成されたデータパイプライン)の結

    0

    1答えて

    寄木張りの形式で格納されているHiveからテーブルを読み込もうとしています(これはImpalaです)。私はSpark 1.3.0とHiveContextを使用します。 テーブルのスキーマは次のとおりです。 (a,DoubleType) (b,DoubleType) (c,IntegerType) (d,StringType) (e,DecimalType(18,0)) 私のコードは次の

    1

    1答えて

    Avroファイルを寄木細工に変換する方法の例がたくさんあります。 ただし、反対の変換を行う簡単な方法がある場合は、私は混乱しています - パーケットをAvroに変換する。それの例は何ですか?

    3

    1答えて

    Sparkを使用してHDFSにファイルを書き込むとき、パーティショニングを使用しないときは非常に高速です。その代わりに、ファイルを書き込むためにパーティショニングを使用すると、書き込み遅延が約24倍に増加します。 同じファイルの場合、パーティションなしでの書き込みには約600msかかります。 Idでパーティションを作成すると(ファイルに1.000のIDがあるため、正確に1.000のパーティションが

    2

    1答えて

    私たちは多くのインパラテーブルを定義しており、スナッピー圧縮を使用していると仮定しています。 (寄木細工のファイル) しかし、私たちが実際にどのような圧縮タイプを実際に使用しているのかは分かりません。 impala docsは、既存のテーブルから圧縮タイプを取得する方法を指定していないようです。 インパラを介して使用されている圧縮タイプを見つける方法はありますか?

    1

    1答えて

    CDHディストリビューション(バージョン5.6.0)を(インパラ(バージョン2.4.0))で実行しています。 HDFSに格納されている寄木細工のファイルがあります。次に、私は次のクエリでインパラ外部表にこれらのファイルをロードしています create external table parquetTable like parquet 'hdfs://cloudera-impala-mn0.east

    -1

    1答えて

    私はavroデータ(〜2 TB)を寄木張りに変換したいと考えました。 ハイブクエリを実行し、データを寄せ木に変換できました。 しかし、データサイズは6 TBになりました。 データが3倍になったのはどうでしたか?