orc

    1

    1答えて

    にスパークデータフレームをエクスポート: df.write.saveAsTable(table_name, format="orc", mode="overwrite", path=s3_path) を私はちょうどspark.read.orc(s3_path)を使用することにより、問題なくorcfileを読んで、そうありますすることができますorcファイル内のスキーマ情報。 しかし、私は本当に

    1

    1答えて

    誰かが、ハイブのどのファイルfomatsがHCatalogを使ってpigScriptで使用するのが効率的であるかを説明できますか? 現在、私たちは日付に基づいてパーティション化されたハイブテーブルを持っており、基礎となるファイルはシーケンシャルファイルなので、どのハイブファイルフォーマットが効率的であるかを理解したいと思います。 80日間のデータを読むと、およそ70,000のマッパーが作成されます

    1

    1答えて

    私はkafkaメッセージを読み込み、AWS s3のORCファイルにメッセージをダンプするFlinkストリーミングプログラムに取り組んでいます。私は、FlinkのBucketingSinkとORCファイルライターの統合に関する文書はないことを発見しました。このようなORCファイルライタの実装はBucketingSinkで使用できません。 ここには何か考えがありますか?

    0

    1答えて

    が、これは「作成」コマンドで定義されORC表の列に置き換えます。 ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.orc.OrcSerde' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' OUTPUTFORMAT 'org

    0

    1答えて

    ORCと寄木張りの形式を使用して長いテキストを格納するための適切なデータ型は何ですか?これらの2つのフォーマットのいずれかに、デフォルトの文字列タイプの長さ/サイズの制限がありますか? ありがとうございました。

    2

    2答えて

    s3には30GBのORCファイル(24パーツ* 1.3G)があります。私はこのorcを読んでいくつかの操作を行うためにsparkを使用しています。しかし、私が観察したログからは、操作を行う前でさえ、スパークはs3 (全ファイルを読むのに12分かかります)から24部すべてを開いて読んでいます。。しかし、ここで私の懸念は、このすべての読み取り操作は、ドライバとエグゼキュータのすべてがアイドルであるが現

    6

    1答えて

    orcのインデックス作成を有効にするオプションは何ですか? df .write() .option("mode", "DROPMALFORMED") .option("compression", "snappy") .mode("overwrite") .format("orc") .option("index

    1

    1答えて

    私はSpark-2.2を使用しています。 私はSparkのバケツをPocingしています。私はバケット表を作成しました は、ここdesc formatted my_bucketed_tbl出力です: +--------------------+--------------------+-------+ | col_name| data_type|comment| +----------

    0

    1答えて

    データレベルでマージを行い、ストライプ数を減らしたいとします。これは、私はファイルが毎時処理され、多くの小さなORCファイルがパーティションごとに作成されているためです。私はハイブ連結がストライプレベルでファイルをマージできることを知っています。私が連結すると、ファイルのマージはストライプレベルでのみ起こり、多くのストライプが追加されています。私はわずか2-3行の複数のストライプを持つことになりま