これは素晴らしい質問です。あなたのビジネスの最も貴重な資産を確保するための積極的なアプローチは、特にあなたの同僚とデータを共有している場合、多くの人が耳を傾けるべきものだと思います。人々に見せなければならないものだけを見せてもらうことは、あなたの攻撃面を減らすためには絶対に良い方法です。標準的なサイバーセキュリティ方法は、もはや十分なデータではない多数の攻撃/人々がノートパソコン/ USBを失うことによって実証されています。私たちは結局のところ人間です。来年5月にGDPRが発効すると、EUの顧客を持つ企業は設計上プライバシーを発揮しなければならず、マスキングなどの匿名化技術がこれを示す方法として引用されています。
注:私はあなたが話しているようなサービスに取り組んでいますので、私はこの答えで既得権を持っています。
私たちはあなたの正確なユースケースに応じて、設定されたデータとコンテンツのサイズがあなたのマスキング方法に依存することを発見しました。データ・セットに最小限のフィールドがあり、PIIの場所を知っている場合は、標準照会を実行して機密値を置き換えることができます。すなわちJohn - > XXXX。人の読みやすさを維持したい場合は、Python's Fakerのようなライブラリーがあり、これは機密値を置き換えることができるランダム・ロケール・ベースのPIIを生成します。 (PHP Faker、Perl Faker、Ruby Fakerも存在します)。
免責条項:ストレートフォワードマスキングは、完全なプライバシーを保証するものではありません。タイムスタンプ付きのIMDBデータまたはGuardianのレポーターidentifying a Judges porn preferences from masked ISP dataとの相互参照によって、マスクされたNetflixデータセットから個人を特定すると考えてください。
マスキングはあなたのデータはフィールド/テーブルの増加を設定して、あなたはおそらく別の同僚のためのアクセスの異なるレベルを設定したいと退屈取得しています。データサイエンスは軽く匿名化されたデータを取得し、マーケティングは匿名化されたデータにアクセスします。フリーテキストフィールドのPIIは迷惑で、攻撃者が相互参照に使用できるデータが世界中で利用可能であることを一般的に理解することは大きな課題です。
service i'm working onは、NLP技術のプロセスを自動化し、匿名化の数学をよく理解することによって、これらの問題をすべて軽減することを目指しています。これをWebサービスにバンドルしており、AWS市場での販売を熱望しています。だから私はあなたのユースケースについてもっと聞きたいと思っています。早急にアクセスしたい場合は、私たちは現在プライベートベータになっていますので、私に教えてください。