parquet

    5

    1答えて

    寄木張りの版がHDFSに寄木張りのファイルを書くために使われたことを知る方法はありますか? 私は、さまざまなファイルが同じ寄せ木版のバージョンまたは異なるバージョンを使用して記述されているかどうかを確認しようとしています。

    17

    2答えて

    HadoopやSparkなどのクラスタコンピューティングインフラストラクチャを設定せずに、適度なサイズのパーケットデータセットをメモリ内のPandas DataFrameに読み込む方法を教えてください。これは、ラップトップ上の単純なPythonスクリプトを使用してメモリ内を読みたいと思うほどの量のデータです。データはHDFS上に存在しません。これは、ローカルファイルシステム上か、場合によってはS3

    17

    2答えて

    私は、ParquetファイルをPythonを使って書くことができるライブラリを見つけるのに困っています。ボーナスは、スナッピーやそれに類似の圧縮メカニズムを併用することができます。 は、これまで私が見つけた唯一の方法は、pyspark.sql.DataFrame寄木サポートしてスパークを使用しています。 私は仕事をスパークされていない寄せ木ファイルを作成する必要がありますいくつかのスクリプトを持っ

    5

    2答えて

    parquetファイルを書き込むためにSpark SQLを使用しようとしています。 デフォルトでは、Spark SQLはgzipをサポートしていますが、snappyとlzoのような他の圧縮フォーマットもサポートしています。 これらの圧縮形式と、Hiveを使用して作業するのに最適な圧縮形式の違いは何ですか。

    8

    1答えて

    2つのParquetファイルを含むフォルダに文字列、文字列、doubleのハイブテーブルを作成しようとしています。最初の一節ファイルのスキーマは文字列、文字列、doubleであり、2番目のファイルのスキーマは文字列、double、文字列です。 CREATE EXTERNAL TABLE dynschema ( trans_date string, currency string, rate d

    4

    1答えて

    とHDFSのパーティショニングを活用していない val file = sqlContext.read.parquet(folder) val data = file.map(r => Row(r.getInt(4).toString, r.getString(0), r.getInt(1), r.getLong(2), r.getString(3))) val filteredDa

    8

    3答えて

    寄せ木細工のファイルの内容をコマンドラインから調べるにはどうすればよいですか? 私が今見る唯一のオプションは $ hadoop fs -get my-path local-file $ parquet-tools head local-file | less である私は、parquet-tools版画ことlocal-fileと を作成 回避がjsonではなく、型なしのテキストとしてファイルコ

    3

    2答えて

    私はArrayListにいくつかのデータを持っています。このデータを寄木張りのファイルに書き込むことができますか?そうなら、事前にお礼とJavaプログラムをお勧めします。

    1

    1答えて

    私はスタンドアロンのJavaのローカルファイルシステム(hadoopではなく)に寄木張りファイルを書きたいと思います。 これを行う方法は? 私はこれをsparkで簡単に行うことができますが、私はスタンドアロンJavaでこれを行う必要があるので、hadoop、spark、eccは必要ありません。

    7

    1答えて

    Sparkで生成された分割された寄せ木馬ファイルを読み取る際に問題があります。私はハイブで外部テーブルを作成することができますが、いくつかの行を選択しようとすると、ハイブは行なしの「OK」メッセージのみを返します。 Sparkで分割された寄木細工のファイルを正しく読み取ることができるので、正しく生成されたと仮定しています。 パーティションなしでハイブで外部表を作成すると、これらのファイルを読み取る