parquet

    1

    1答えて

    私はthe one mentioned hereのような状況にあります。問題は満足に答えられていません。また、私は処理するデータが少ない(1Gあたり1日)。 私の状況:一定のデータ量(約500G)がすでに寄木張り(それは合意された「保存形式」)として利用可能で、定期的な増分更新があります。私は後でETLの部分だけでなく、分析の部分も処理できるようにしたい。 も効率的に特定の「中間データ製品」に関す

    0

    1答えて

    は私が火花を使用してCSVファイルから寄木細工構造を作成しましたデータセット: Dataset<org.apache.spark.sql.Row> df = spark.read().parquet("sample.parquet"); df.createOrReplaceTempView("tmpview"); Dataset<Row> namesDF = spark.sql("SELECT

    2

    2答えて

    クラスタメトリックを取得し、古いバージョンのCloudera APIを使用してHDFSファイルにデータを書き込むスケジューラがあります。しかし、最近、JARと元のコードエラーを例外で更新しました。 java.lang.ClassCastException: org.apache.hadoop.io.ArrayWritable cannot be cast to org.apache.hadoop.

    1

    1答えて

    私はSparkを初めて使いました。複雑なオブジェクト(ネストされた)や複雑なjsonsをSparkのParquetとして保存する方法があるかどうかを調べようとしています。私はKite SDKを認識していますが、Map/Reduceを使用していることを理解しています。 私は周りを見回しましたが、解決策を見つけることができませんでした。 ありがとうございました。

    0

    1答えて

    私たちが直面している設計上の問題です。 は、私は次の列で、寄木細工の形式でハイブ外部表を持っている: describe payments_user col_name,data_type,comment ('amount_hold', 'int', '') ('id', 'int', '') ('transaction_id', 'string', '') ('recipient_id',

    0

    1答えて

    追加のメタデータをORCファイルに書き込む方法はありますか?私は "KeyValueMetadata"を使って寄木細工でそれを行う方法を見つけました。私はUserMetadataItemクラスを見ましたが、Orcがカスタムメタデータを追加する方法を提供しているかどうかはわかりません。私はJavaを使って方法を見つけたい。

    0

    3答えて

    sqfopで--queryオプションを使用してSQL Serverからデータをインポートしようとしています。私の関心事は、どのようなスキーマをSQL Serverで--queryに使用するかを宣言することです。 マイスクリプト: sqoop \ --options-file sqoop/aw_mssql.cfg \ --query "select BusinessEntityId, Login

    1

    1答えて

    https://spark.apache.org/docs/latest/programming-guide.html(「関数をスパークする」を参照してください)、私のケースでは、ケースクラスで型付きデータセットを使用しています。私はマッピングメソッドを保持するためにシングルトンオブジェクトを使用しようとしています。ステージのパフォーマンスを最適化するために必要な機能をパッケージ化する方法(データ