寄木細工のメタデータファイルはHDFSで便利ですか？

私たちは、Sparkを使用してHDFS上に寄木張りファイルを生成します。寄木細工のメタデータファイルはHDFSで便利ですか？

スパークは、4つのファイル、1つの寄木細工のデータ、および3つのメタデータファイルを生成します。事は、3つのメタデータファイルが1ブロック（ここでは128M）を取るということです。このような多くのタスクを実行すると、無駄に多くのスペースが必要になります。

ファイルが必要ですか？それとも対処するのが良い方法ですか？

出典

2017-05-29 Thomas Decaux

メタデータがなければ、パーケットファイルを理解するのはかなり難しいです。 – LiMuBei

データウェアハウスとしてHiveを使用し、PrestoDBとHiveでクエリ –

_ "メタデータファイルは1ブロック、ここでは128M ...多くの領域を取る可能性があります" _ >> ** no。** HDFSブロックサイズにはディスクの使用に大きな影響を与えます。これは大規模なファイルの場合、データの_logical_配布に関するものです。クライアントがHDFSファイルに書き込むとき、現在のブロックが128 MBに達すると、新しいブロックが作成され（ランダムなノードに複製されます）、最終的に各ブロックは通常のLinuxファイルとしてバイト単位で格納されます（余分なLinuxファイルにはメタデータがいくつか加えられます）。 –

寄せ木細工の出力フォルダー内のメタデータファイルはオプションです。各寄せ木ファイルにメタデータが埋め込まれているため、寄せ木張りのファイルを読み込むために火花が必要となりません。

一方、thriftでは、これらのファイルを読み取る必要があります。

Spark 2.0では、デフォルトで寄木細工の概要ファイルを作成しています。 [Ref。 SPARK-15719。]

出典

2017-05-29 08:01:57 eliasah

よろしくお願いします。安全に取り外すことができます。 Spark 1.6.2で '' ENABLE_JOB_SUMMARY''をfalseに設定できるかどうか知っていますか？ –

私はスパーク2の前に寄木細工にそのようなconfが存在するかどうかはわかりません。 – eliasah

寄木細工のメタデータファイルはHDFSで便利ですか？

答えて

関連する問題