parquet

1熱

1答えて

私はthe one mentioned hereのような状況にあります。問題は満足に答えられていません。また、私は処理するデータが少ない（1Gあたり1日）。私の状況：一定のデータ量（約500G）がすでに寄木張り（それは合意された「保存形式」）として利用可能で、定期的な増分更新があります。私は後でETLの部分だけでなく、分析の部分も処理できるようにしたい。も効率的に特定の「中間データ製品」に関す

0熱

1答えて

データ型の不一致ながら

は私が火花を使用してCSVファイルから寄木細工構造を作成しましたデータセット： Dataset<org.apache.spark.sql.Row> df = spark.read().parquet("sample.parquet"); df.createOrReplaceTempView("tmpview"); Dataset<Row> namesDF = spark.sql("SELECT

2熱

2答えて

Apache Parquet形式でデータを書き込む

クラスタメトリックを取得し、古いバージョンのCloudera APIを使用してHDFSファイルにデータを書き込むスケジューラがあります。しかし、最近、JARと元のコードエラーを例外で更新しました。 java.lang.ClassCastException: org.apache.hadoop.io.ArrayWritable cannot be cast to org.apache.hadoop.

1熱

1答えて

複雑なjsonオブジェクトや複雑なオブジェクトをSparkのParquetとして保存するにはどうすればいいですか？

私はSparkを初めて使いました。複雑なオブジェクト（ネストされた）や複雑なjsonsをSparkのParquetとして保存する方法があるかどうかを調べようとしています。私はKite SDKを認識していますが、Map/Reduceを使用していることを理解しています。私は周りを見回しましたが、解決策を見つけることができませんでした。ありがとうございました。

0熱

1答えて

寄木張りの書式でスキーマを変更する方法

私たちが直面している設計上の問題です。は、私は次の列で、寄木細工の形式でハイブ外部表を持っている： describe payments_user col_name,data_type,comment ('amount_hold', 'int', '') ('id', 'int', '') ('transaction_id', 'string', '') ('recipient_id',

0熱

1答えて

ORCファイルメタデータ：カスタムキー値を書き込んでいますか？

追加のメタデータをORCファイルに書き込む方法はありますか？私は "KeyValueMetadata"を使って寄木細工でそれを行う方法を見つけました。私はUserMetadataItemクラスを見ましたが、Orcがカスタムメタデータを追加する方法を提供しているかどうかはわかりません。私はJavaを使って方法を見つけたい。

0熱

3答えて

SQOOP - SQL ServerでSCHEMAを使用したクエリ

sqfopで--queryオプションを使用してSQL Serverからデータをインポートしようとしています。私の関心事は、どのようなスキーマをSQL Serverで--queryに使用するかを宣言することです。マイスクリプト： sqoop \ --options-file sqoop/aw_mssql.cfg \ --query "select BusinessEntityId, Login

1熱

1答えて

データセット、大きなJavaクラス、およびシングルトンを使用する場合のスパークパス関数

https://spark.apache.org/docs/latest/programming-guide.html（「関数をスパークする」を参照してください）、私のケースでは、ケースクラスで型付きデータセットを使用しています。私はマッピングメソッドを保持するためにシングルトンオブジェクトを使用しようとしています。ステージのパフォーマンスを最適化するために必要な機能をパッケージ化する方法（データ