Hiveのテーブル<table name>をどのように変更すると「仕事」が連結されますか？

n(large)私は大きいorcファイルのk(small)にマージしたい小さいサイズのorcファイルの数を持っています。Hiveのテーブル<table name>をどのように変更すると「仕事」が連結されますか？

これは、ハイブでalter table table_name concatenateコマンドを使用して行われます。

Hiveはこれをどのように実装しているのか理解したいと思います。必要に応じてSparkを使ってこれを実装したいと思っています。

すべてのポインタが優れています。

2017-01-24 Aaquib Khwaja

表またはパーティションは多くの小さなrcfileをやORCファイルが含まれている場合、上記のコマンドは、大きなファイルにマージします。 RCFileの場合、ブロックレベルでマージが行われますが、ORCファイルの場合、マージはストライプレベルで行われるため、データの解凍とデコードのオーバーヘッドが回避されます。

また：

ORCファイルの本体は、一連のストライプで構成されています。ストライプは大きい（通常〜200MB）、互いに独立したであり、よく異なるタスクによって処理されるです。柱状の格納形式の定義上の特徴は、各列のデータが個別にに格納され、ファイルから読み取るデータが、読み取られた列の数がに比例することです。 ORCファイルでは、各列は複数のストリームに格納され、ファイル内には互いに隣接してに格納されます。たとえば、整数列は、2つのストリームPRESENTとして表現されたであり、値がNULLでない場合には値の記録単位のビットを使用し、0以外の値の場合はを記録するDATAを使用します。ストライプ内の列の値がすべてNULLでない場合、 PRESENTストリームはストライプから除外されます。バイナリデータの場合、ORC はPRESENT、DATA、LENGTHの3つのストリームを使用し、各値の長さはです。各タイプの詳細は、サブセクションのに記載されています。

スパークに実装するためにあなたがスパークコンテキストの助けを借りてSparkSQLを使用することができます。

scala> val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) 

scala> sqlContext.sql("Your_hive_query_here")

出典

2017-01-24 11:16:51

Hiveのテーブル<table name>をどのように変更すると「仕事」が連結されますか？

答えて

関連する問題