parquet

    0

    1答えて

    SQL ServerデータベースからAzure BlobストレージにSqoopユーティリティを使用して.parquetファイル形式のテーブルをインポートできますか? sqoopは、Azureブロブストレージを指すように宛先をwasb(s)://プロトコルとして受け入れますか?

    0

    2答えて

    私はSparkを初めて使用しています。私はローカルモード(ウィンドウ)でスパークのJavaを使用して寄木細工のCSVファイルを保存しようとしています。私はこのエラーがある。 はによって引き起こさ:org.apache.spark.SparkException:書き込み行は 私は他のスレッドと無効スパーク憶測を呼びながら、タスクが失敗した セット( "spark.speculation"、 "偽")

    1

    1答えて

    HDFSに何百万もの小さなファイル(バイナリファイル、イメージ、exeなど)(〜1Mb)を保存したいのですが、私の要件は基本的にはランダムファイルをクエリでき、MapReduceジョブは実行できません。 私の主な問題は、MapReduceマッパーではなく、ネームノードのメモリの問題です。 だから私のオプションは以下のとおりです。 HARファイル - 集約小さなファイルのみそのHARでそれらを保存す

    0

    1答えて

    は、私は私のクラスタ上のいくつかの重い丸太をしました、私は次のパーティションスキーマでそれらのすべてをparquetedました2017/07/12から2017/08/10の間に効果的に行う方法はありますか?または、パーティションを1つずつ読み込むために全日ループする必要がありますか? おかげで、

    0

    2答えて

    誰でもこのエラーを解決しましたか?メッセージ:compressions['SNAPPY'] = snappy.compress AttributeError: module 'snappy' has no attribute 'compress' 寄木細工をPythonで読むと? Btw、そこには全司令官を読む方法がありますか?次のようにhttps://pypi.python.org/pypi/p

    0

    1答えて

    から赤方偏移に接続するとき、私は/opt/spark-2.2.0-bin-hadoop2.7/にSPARCをインストールして、それから pyspark --jars spark-redshift_2.10-3.0.0-preview1.jar,RedshiftJDBC42-1.2.7.1003.jar,hadoop-aws-2.7.1.jar,aws-java-sdk-1.7.4.jar を使

    0

    1答えて

    ハイブテーブルにパーケットファイルを読み込むことが困難です。私はAmazon EMRクラスターに取り組んでおり、データ処理を開始しています。しかし私は私の変換を検証するために出力parquetファイルを読む必要があります。 root |-- ATTR_YEAR: long (nullable = true) |-- afil: struct (nullable = true) | |-- c

    3

    1答えて

    私は大きなデータセット(〜600 GB)をHDF5フォーマットとして保存しています。これは大きすぎてメモリに収まらないので、これをParquet形式に変換し、pySparkを使用していくつかの基本データ前処理(正規化、相関行列の検索など)を行いたいと思います。しかし、データセット全体をメモリにロードせずにParquetに変換する方法がわかりません。 私はこの要点:https://gist.gith

    0

    1答えて

    こんにちは、テーブルに新しいデータを挿入した後、S3でHiveが作成した最後の寄せ木ファイルの名前を取得できる方法があるかどうかを知りたいですか?

    0

    2答えて

    私のスパークプログラムを実行し、ファイルからシールドする方法はありますか? の変更はありますか? コードは、寄木細工のファイル(読み込み時にエラーなし)を読み取ることで開始: val mappings = spark.read.parquet(S3_BUCKET_PATH + "/table/mappings/") それは、データ等との変換、 val newTable = mappings.j