0
MapReduceを使用して重複タプルのリストを返したいと思います。重複タプルとは、1組の属性の値が似ているタプルを意味します。MapReduceを使用して重複をグループ化するにはどうすればよいですか?
この属性セットの値を中間キーとして使用し、reduceを調整してすべての類似するキーを1つのキーとして処理できますか?
MapReduceを使用して重複タプルのリストを返したいと思います。重複タプルとは、1組の属性の値が似ているタプルを意味します。MapReduceを使用して重複をグループ化するにはどうすればよいですか?
この属性セットの値を中間キーとして使用し、reduceを調整してすべての類似するキーを1つのキーとして処理できますか?
はい、私は自分のクラスの中間キー魔法使いを実装して、インターフェイスWritableComparableを実装することができます。だから私は、入力が等しければ、 "CompareTo"魔法使いが "0"を返す関数を実装することを余儀なくされました。 私の属性のクラスは私のタプルの属性です。これらすべての属性が似ている場合、 "CompareTo"という関数を "0"を返すように記述しました。類似度はLevenshtein Edit Distanceで計算できます。
「類似のキー」とは何を意味していますか?具体的な例がありますか? – PetrosP
@PetrosP私のキーは、一連の属性の値です。類似度はLevneshtein Distanceまたは任意の距離で計算できます。例えば、key1 =( 'david'、 'robert'、 '1111')とkey2( 'davd' '、' rbrt '、' 1111 ')とkey3(' dav '、' robrt '、' 11111 ')は同様のキーです。確かに、同じキーを持つ値のリストを再編成するときのMapreduceがキーを比較するとき、私はこの比較を、私がそれを定義する類似関数の関数で行い、平等ではない –