0
タブ区切りファイル(TSF)やカンマ区切りファイル(CSV)やプレーンテキストファイルのような同じデータがある場合、特定の区切り文字または任意の区切り文字で区切られたファイルサイズのデータ形式が最も小さい場合は、その他。同じデータがある場合、どのファイル形式が最小ですか?
私たちが一番小さいファイル形式を理解したら、GZipまたは7zipを使用してファイルを圧縮することを希望します。
タブ区切りファイル(TSF)やカンマ区切りファイル(CSV)やプレーンテキストファイルのような同じデータがある場合、特定の区切り文字または任意の区切り文字で区切られたファイルサイズのデータ形式が最も小さい場合は、その他。同じデータがある場合、どのファイル形式が最小ですか?
私たちが一番小さいファイル形式を理解したら、GZipまたは7zipを使用してファイルを圧縮することを希望します。
私はJSON、BSON、YAML、プロトコルバッファ、アブロ、XML形式を試してみました
YAMLは、JSON形式のように読めるが、それは巨大なメモリを消費しています。 XMLは膨大なメモリを消費することも明白です プロトバッファーとAvroはCSVよりも優れています&サイズに関してはTSVファイルですが、データは人間が読める形式ではありません。 私の提案は、読みやすさとサイズを満たすJSONを使用することです。また、JSONを簡単に解析するためのAPIも用意されています。
同じではありませんか?タブ文字とコンマは両方とも1文字です。 – SaggingRufus
私はSaggingRufusが正しいと思っていますが、なぜそれを試してみませんか? – hering
@heringこれは通常、良い出発点です! – SaggingRufus