私はユーザーアクションに関するログレコードを生成しています。プライバシー上の理由から、これらはN日後に匿名化する必要があります。しかし、この匿名化されたデータに対してレポートを実行する必要もあります。一人のユーザーのレコードは、まだログに1(偽の)利用者の記録を残さなければなりません -古いデータと新しいデータとの関係を壊さずに新しいログレコードを匿名化する方法は?
私は実ユーザAによってすべてのアクションが匿名化ログに偽のユーザーXの下に表示されるようにしたいです。これは明らかに、新しいレコードを匿名化する際に使用する、実際のユーザーと偽のユーザーの間にマッピングをいくつか用意する必要があることを意味します。もちろん、これは完全に匿名化のポイントを打ち負かします。マッピングがあれば元のユーザーデータを復元できます。
例:
ユーザーフランクミュラーは、スープの3缶を買いました。
三日後、ユーザーフランク・ミュラーは、スープの3缶の払い戻しを求めました。
私が2番目のログエントリを匿名化すると、最初のものはすでに匿名化されています。私は、両方のログレコードが同じユーザーを指すようにしたい。まあ、それは実際には私にとってはほとんど不可能に思えるので、私は、データをできるだけ完全に保つことを可能にするデータを分割するいくつかの方法を使いたいと思います。おそらくログをデータウェアハウスとして使用して、すべてを事実に分割し、いくつかの次元を分析できないという事実を受け入れるだけでしょうか?
以前にこのようなシナリオに遭遇しましたか?私の選択肢は何ですか?私は明らかに何らかの妥協案を作る必要があります - あなたにとって効果的であることは証明されていますか?そのようなデータを最大限に活用するには?知識をひけらかすされる危険が
匿名の一方向ハッシュ、再識別のリスクとキー管理をカバーする優れた答えです。 – npdoty