2017-11-08 51 views
1

セッションによって論理的に分割された入力データセットがあります。.netカスタムプロセッサーまたはレデューサーを使用するには?

処理中に、セッションごとの行に基づいて計算されるハッシュ値を含むもう1つの列を生成する必要があります。セッションのすべての行にハッシュ値(セッション内で同じ)がスタンプされます。入出力カーディナリティは同じになります。

写真は私が持っているものを示しています。

.netカスタムレデューサーまたはプロセッサーを使用すると思います。私は正しい方法でいますか?選択するもの、またはU-SQLで適切に実装する方法それは、セッションのためのハッシュのように聞こえる

答えて

2

は、セッション中に、プロセッサは役に立たないという理由で、すべての行についての知識が必要ですが、減速はこれを行うことができます。

これがカスタムアグリゲータを介して実行できるかどうかを検討してください。たとえば、ユーザー定義アグリゲータを使用してセッションごとにハッシュを作成し、集計の結果を元の行のリストと結合することができます。

+0

thanx私が試してみます! – churupaha

+0

は、REDUCERのようにグループ内のPREORDER行に能力を与えないため、私のシナリオではUDAGGを使用できないようです。ハッシュ計算では、行と列に同じ順序を使用する必要があります。 – churupaha

+0

もう1つ質問があります。 input.Rowsを何度か反復できますか?それとも1回のパスリストですか?もしそうなら、その作業var行= input.Rows.ToList();? – churupaha

関連する問題