5秒以下のタイムスタンプが対応するデータとともに1つの5秒バケットに収まるように、データをsparkに保存したいとします。同様に、次の5秒間バケットは残りのログと一緒になります。 (私はバケット内のデータを集めることができるように)。私のログ:apache sparkでバケットを作成する
1472120400.107 HTTP GEO er.aujf.csdh.jkhydf.eyrgt
1472120399.999 HTTP GEO er.asdhff.cdn.qyirg.sdgsg
1472120397.633 HTTP GEO er.abff.kagsf.weyfh.ajfg
1472120397.261 HTTP GEO er.laffg.ayhrff.agyfr.yawr
1472120394.328 HTTP GEO er.qfryf.aqwruf.oiuqwr.agsf
1472120393.737 HTTP GEO er.aysf.aouf.ujaf.casf
.
.
.
私はまだ火花の中でそれを行う方法を見つけることができません。
タイムスタンプが付いたログ1472120400.107,1472120399.999,1472120397.633,1472120397.261などは、1つのバケットに分類され、次のバケットに設定されます。
出力:
タイムスタンプ1472120400.107,1472120399.999,1472120397.633,1472120397.261を持つすべてのloglinesは、さらなる処理が全体のバケットのカウントを見つけるようなものに行われますので、(1つのバケット)のメモリに保持されます。同様に、次のバケット。
予想される出力は? – mtoto
「バケツ」はどういう意味ですか? – mtoto
これは、ログをパーティション分割すること以外は何もありません。パーティション化されたロググループがバケットを形成します。 – kaks