orc

    4

    1答えて

    hadoopクラスタ間でハイブテーブルを転送するジョブがあります。 ソースhadoopクラスタからorcファイルをダウンロードし、次のコマンドを使用してorcファイルをターゲットhdfsクラスタにアップロードしました。 hadoop fs -get hadoop fs -put ターゲットのHadoop CLUSTRにおけるORCファイルがスパークアプリケーションで以下のようにして読み出すこ

    1

    2答えて

    をオークテーブルを読み取ることができない私は、Sparkとオークのテーブルを読むことができるように特別な何かをする必要がありますか? 私はTXTやオークで2つのテーブルのコピーを持っています。 txtテーブルを読むときは、すべてが大丈夫です。 orcテーブルを読むときはエラーは出ませんが、sparkは空のテーブルを返します。ここで はPythonで私のコードです: import pyspark

    0

    1答えて

    hadoopファイルシステムのORCファイルをコマンドラインから読み込もうとしていますが、以下のコマンドが機能しません。 のHadoopのfs -textは いただきまし同等のコマンドを動作していませんか?

    0

    2答えて

    我々はそうのようなディレクトリ構造を持っている場合: /hdfs/foo /hdfs/foo/foo1 /hdfs/foo/foo2 オークのファイルは、foo1のとfoo2はしています。おそらくfooの下にいくつでもサブディレクトリが存在する可能性があります。 (パーティション化されたファイルです)。 サブディレクトリのすべてのファイルをリレーションに読み込むにはどうすればよいですか?

    0

    1答えて

    私は基本的にいくつかの簡単なjsonファイルを読み込んで、1つのフィールドで分割されたorcファイルとして書き込むようにしているpython sparkジョブを持っています。パーティションはあまりバランスが取れていません。いくつかのキーは本当に大きく、他は本当に小さくなっています。 このような何かをやったとき、私はメモリの問題を持っていた:執行にメモリを追加する events.write.mode

    0

    1答えて

    クローダを使用する8.1。 Hiveでは、ORC形式の表をCSVファイルでロードしました。ロードされたテーブルを照会しようとする際にこのエラーが発生する: 例外が発生して失敗しました。java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException:java.lang.ClassCastException:org.apache

    0

    1答えて

    私は2つのテーブルを持っています。 一方はバケツで、他方はバケツではありません - それ以外は同じです。 どちらもorcとして格納され、分割されています。 特定のパーティションでバケットテーブルを照会するのは、同じパーティションでそのツインを照会するよりもはるかに時間がかかります。 期待していますか? その理由は何ですか? もしそうなら、私はバケツテーブルを保持する唯一の動機は結合とサンプリングの

    0

    1答えて

    メタストアなしでpyspark 2.0を使用していくつかのORCファイルを読みたいと思います。理論的には、データスキーマがORCファイルに埋め込まれているため、そうすることが可能です。しかし、ここに私が持っているものがあります: [[email protected] ~]$/usr/local/spark-2.0.0-bin-hadoop2.6/bin/pyspark Python 2.7.

    0

    2答えて

    1つのファイル(test.hql)に200個のInsert文を入れて、ORC形式のハイブテーブルに挿入します。各挿入にはかなりの時間(40秒)がかかります。 2時間。物事をスピードアップする方法はありますか? 私はtmp(テキスト形式)テーブルを作成した後、簡単な挿入上書きを行うことはできますが、これは許可されていません..新しいDDLを作成することはできません.. - > 1つのオプションは、並

    0

    1答えて

    これは愚かな質問でなければならないことは分かっていますが、数時間後には私は答えを得ることができません。 csvなどのプレーンテキスト形式では、区切り文字がどのように機能するかはわかりやすいです。 ORC中にはHDFSにバイナリが格納されているので、フィールドの区切り文字は何でしょうか?私はORCにデリミタがないと言われましたが、私はこの声明について非常に疑問を抱いています。 行グループとして格納さ