私はクラスタ上でいくつかのデータを使って遊んでいて、いくつかの集計をしたいです---複雑すぎるものではなく、結合して別名を数えます。私はHiveとSparkでこの集約をScalaで実装し、実行時間を比較したいと思います。私の特定のユースケースでHive(on Tez)とSparkの間のパフォーマンスベンチマーク
私はゲートウェイからスクリプトを提出すると、Linuxの時間関数は、私が期待したsys時間よりも小さいリアルタイムを提供します。しかし、私はどちらが正しい比較として選ぶべきかわからない。たぶん、sys.timeを使用して、両方のクエリを何度も実行するのでしょうか?この場合、私は完全に受け入れることができますか?