parquet

0熱

1答えて

Sqoopを使用してSQL ServerからAzureブロブストレージにデータをインポートすることはできますか

SQL ServerデータベースからAzure BlobストレージにSqoopユーティリティを使用して.parquetファイル形式のテーブルをインポートできますか？ sqoopは、Azureブロブストレージを指すように宛先をwasb（s）：//プロトコルとして受け入れますか？

0熱

2答えて

spark javaにパーケットファイルとして保存

私はSparkを初めて使用しています。私はローカルモード（ウィンドウ）でスパークのJavaを使用して寄木細工のCSVファイルを保存しようとしています。私はこのエラーがある。はによって引き起こさ：org.apache.spark.SparkException：書き込み行は私は他のスレッドと無効スパーク憶測を呼びながら、タスクが失敗したセット（ "spark.speculation"、 "偽"）

1熱

1答えて

HDFSの小さなファイルデザイン

HDFSに何百万もの小さなファイル（バイナリファイル、イメージ、exeなど）（〜1Mb）を保存したいのですが、私の要件は基本的にはランダムファイルをクエリでき、MapReduceジョブは実行できません。私の主な問題は、MapReduceマッパーではなく、ネームノードのメモリの問題です。だから私のオプションは以下のとおりです。 HARファイル - 集約小さなファイルのみそのHARでそれらを保存す

0熱

1答えて

選択寄木細工は

は、私は私のクラスタ上のいくつかの重い丸太をしました、私は次のパーティションスキーマでそれらのすべてをparquetedました2017/07/12から2017/08/10の間に効果的に行う方法はありますか？または、パーティションを1つずつ読み込むために全日ループする必要がありますか？おかげで、

0熱

2答えて

python 3 mac：snappy.compress AttributeError：モジュール 'snappy'は属性 'compress'を持っていません

誰でもこのエラーを解決しましたか？メッセージ：compressions['SNAPPY'] = snappy.compress AttributeError: module 'snappy' has no attribute 'compress' 寄木細工をPythonで読むと？ Btw、そこには全司令官を読む方法がありますか？次のようにhttps://pypi.python.org/pypi/p

0熱

1答えて

スパーク

から赤方偏移に接続するとき、私は/opt/spark-2.2.0-bin-hadoop2.7/にSPARCをインストールして、それから pyspark --jars spark-redshift_2.10-3.0.0-preview1.jar,RedshiftJDBC42-1.2.7.1003.jar,hadoop-aws-2.7.1.jar,aws-java-sdk-1.7.4.jar を使

0熱

1答えて

パーケットファイルからハイブテーブルを作成し、データをロード

ハイブテーブルにパーケットファイルを読み込むことが困難です。私はAmazon EMRクラスターに取り組んでおり、データ処理を開始しています。しかし私は私の変換を検証するために出力parquetファイルを読む必要があります。 root |-- ATTR_YEAR: long (nullable = true) |-- afil: struct (nullable = true) | |-- c

3熱

1答えて

メモリにロードせずにHDF5をパーケットに変換する

私は大きなデータセット（〜600 GB）をHDF5フォーマットとして保存しています。これは大きすぎてメモリに収まらないので、これをParquet形式に変換し、pySparkを使用していくつかの基本データ前処理（正規化、相関行列の検索など）を行いたいと思います。しかし、データセット全体をメモリにロードせずにParquetに変換する方法がわかりません。私はこの要点：https://gist.gith

0熱

1答えて

S3にHiveが作成した最後のファイル名を覚えている

こんにちは、テーブルに新しいデータを挿入した後、S3でHiveが作成した最後の寄せ木ファイルの名前を取得できる方法があるかどうかを知りたいですか？

0熱

2答えて

FileNotFoundExceptionsから保護するスパークコード？

私のスパークプログラムを実行し、ファイルからシールドする方法はありますか？の変更はありますか？コードは、寄木細工のファイル（読み込み時にエラーなし）を読み取ることで開始： val mappings = spark.read.parquet(S3_BUCKET_PATH + "/table/mappings/") それは、データ等との変換、 val newTable = mappings.j