parquet

5熱

1答えて

寄木張りの版がHDFSに寄木張りのファイルを書くために使われたことを知る方法はありますか？私は、さまざまなファイルが同じ寄せ木版のバージョンまたは異なるバージョンを使用して記述されているかどうかを確認しようとしています。

17熱

2答えて

HadoopやSparkなどのクラスタコンピューティングインフラストラクチャを設定せずに、適度なサイズのパーケットデータセットをメモリ内のPandas DataFrameに読み込む方法を教えてください。これは、ラップトップ上の単純なPythonスクリプトを使用してメモリ内を読みたいと思うほどの量のデータです。データはHDFS上に存在しません。これは、ローカルファイルシステム上か、場合によってはS3

17熱

2答えて

Pythonを使用して寄木細工のファイルを書く方法は？

私は、ParquetファイルをPythonを使って書くことができるライブラリを見つけるのに困っています。ボーナスは、スナッピーやそれに類似の圧縮メカニズムを併用することができます。は、これまで私が見つけた唯一の方法は、pyspark.sql.DataFrame寄木サポートしてスパークを使用しています。私は仕事をスパークされていない寄せ木ファイルを作成する必要がありますいくつかのスクリプトを持っ

5熱

2答えて

Spark SQL - gzipとスナップとlzoの圧縮形式の違い

parquetファイルを書き込むためにSpark SQLを使用しようとしています。デフォルトでは、Spark SQLはgzipをサポートしていますが、snappyとlzoのような他の圧縮フォーマットもサポートしています。これらの圧縮形式と、Hiveを使用して作業するのに最適な圧縮形式の違いは何ですか。

8熱

1答えて

豚にハイパーテーブルを使用する

2つのParquetファイルを含むフォルダに文字列、文字列、doubleのハイブテーブルを作成しようとしています。最初の一節ファイルのスキーマは文字列、文字列、doubleであり、2番目のファイルのスキーマは文字列、double、文字列です。 CREATE EXTERNAL TABLE dynschema ( trans_date string, currency string, rate d

4熱

1答えて

スパークは、私は、次のコマンドを使用してHDFSに寄木細工のファイルを書いています寄木細工

とHDFSのパーティショニングを活用していない val file = sqlContext.read.parquet(folder) val data = file.map(r => Row(r.getInt(4).toString, r.getString(0), r.getInt(1), r.getLong(2), r.getString(3))) val filteredDa

8熱

3答えて

コマンドラインから寄木細工を検査する

寄せ木細工のファイルの内容をコマンドラインから調べるにはどうすればよいですか？私が今見る唯一のオプションは $ hadoop fs -get my-path local-file $ parquet-tools head local-file | less である私は、parquet-tools版画ことlocal-fileとを作成回避がjsonではなく、型なしのテキストとしてファイルコ

3熱

2答えて

寄せ集め形式でデータを書くには

私はArrayListにいくつかのデータを持っています。このデータを寄木張りのファイルに書き込むことができますか？そうなら、事前にお礼とJavaプログラムをお勧めします。

1熱

1答えて

Javaで寄木細工を書いてください

私はスタンドアロンのJavaのローカルファイルシステム（hadoopではなく）に寄木張りファイルを書きたいと思います。これを行う方法は？私はこれをsparkで簡単に行うことができますが、私はスタンドアロンJavaでこれを行う必要があるので、hadoop、spark、eccは必要ありません。

7熱

1答えて

HiveはSparkによって生成された分割された寄せ木馬ファイルを読み取らない

Sparkで生成された分割された寄せ木馬ファイルを読み取る際に問題があります。私はハイブで外部テーブルを作成することができますが、いくつかの行を選択しようとすると、ハイブは行なしの「OK」メッセージのみを返します。 Sparkで分割された寄木細工のファイルを正しく読み取ることができるので、正しく生成されたと仮定しています。パーティションなしでハイブで外部表を作成すると、これらのファイルを読み取る