parquet

    -2

    1答えて

    大きなファイルを書きたいと思っていますが、期待しているのはOutOfMemoryErrorです。 OutOfMemoryErrorのメッセージを返信します。 try-catchを使用しましたが、エラーをキャッチできません。お勧めします

    1

    1答えて

    私はspark/pysparkを初めて使用しており、パイプラインに統合する必要があります。私は、ターミナルで実行する必要があるコードをアセンブルすることができました。さて、このコードをスクリプトとして実行したいと思います。しかし、私がPythonスタイルpyspark -c cmds.pyを実行すると、Error: Invalid argument to --conf: cmds.pyが得られます

    1

    1答えて

    DynamodDBテーブルを読み取ろうとしています。Apache Sparkです。続き は私の実装です:スパークでそう シェル spark-shell --jars /usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar import org.apache.hadoop.io.Text; import org.apache.hadoop.dynamodb.D

    0

    1答えて

    pyspark sqlデータフレームを寄木張りの形式で保存しました。今私はxml形式で保存したい。これどうやってするの? pysparkのSQLデータフレームをxmlに直接保存するか、または寄木張りをxmlに変換するためのソリューションが私のために機能します。前もって感謝します。

    0

    1答えて

    I am trying to write a data frame into a parquet format. The data frame is str(test) 'data.frame': 365 obs. of 4 variables: $ id : chr "Apple" "Apple" "Apple" "Apple" ... $ text : chr "譲渡 拡散希望\npsycho

    5

    1答えて

    私はspark.sql.parquet.output.committer.classを設定しようとしていますが、設定を有効にすることはできません。 多くのスレッドが同じ出力フォルダに書き込もうとしていますが、これは_temporaryフォルダを使用しないため、org.apache.spark.sql. parquet.DirectParquetOutputCommitterで動作します。 Caus

    2

    1答えて

    RECORDスキーマにUNIONスキーマを変換: trait T {def name: String} case class A(name: String, value: Int) extends T case class B(name: String, history: Array[String]) extends T それは次のようになります。このスキーマからデータを読み出すためにうま

    2

    1答えて

    エンドユーザーがより大きなファイルで複数のソースを処理しないようにするために集約ファイルを作成しようとしています。これを行うには: A)すべてのソースフォルダを反復処理し、最も一般的に要求される12個のフィールドを取り除き、これらの結果が同じ場所にある新しい場所でパーケットファイルを回転させます。 B)手順Aで作成したファイルを元に戻し、12個のフィールドをグループ化して再集計して、各固有の組み合

    0

    1答えて

    私が火花を持つ特定の寄木細工のファイルを読み込む必要がある は、私はこれがそうのように行うことができます知っている: sqlContext .read .parquet("s3://bucket/key", "s3://bucket/key") を今Iこれらのすべてのs3パスを含むList [String]オブジェクトを持っていますが、これをプログラムでScalaの寄木張り

    0

    3答えて

    問題:オブジェクトがシリアライズできない 問題を解決する方法をご覧ください。適切に印刷するように正しく読み取ることができます。しかしによって引き起こさ 直列化可能ではない オブジェクト取得寄木細工したレコードを書き込み中:java.io.NotSerializableException: parquet.avro.AvroParquetWriterシリアル化スタック: - オブジェクトではありませ