2017-06-06 15 views
0

私はしばしば私の開発環境でテスト用の生産データを使用します。 しかし、機密データのために、私はデータの匿名化を行う必要があります。 名前、住所などの機密データを特定しました。名前フィールドには、たとえば などの値を設定しました。値をランダムに設定する更新を行う予定です。 これがデータの匿名化の効果的な方法であるかどうかは疑問に思っていました。 データの匿名化:進める方法

+0

私が理解するように、それはあまり効果的ではないかもしれません。 [AOL検索データ漏洩](https://en.wikipedia.org/wiki/AOL_search_data_leak)も参照してください。 – jww

+0

@jww:理由を説明できますか? – tabby

答えて

0

これは、個人情報をランダムな文字列に置き換えることによって、手動で行うことができます。あなたがPythonのためにfakerのようないくつかの妥当性ライブラリを維持したい場合でも、さらに良い。ハードコーディングされたソリューションは、スキーマの変更によって落ち着きますが、規則正しい整理でこれを行うと、

データセットを匿名化する最良の方法については、bunch of mathematical theoryもあります。個人にリンクされている機密データの例はたくさんあります。これは、データセットが適切に匿名化されていないか、一般に公開されているデータと組み合わされていることが原因です。しかし、は明らかにであり、テストで匿名化されたデータを扱う方が安全です。

私はこの正確な問題を自動的に処理するために、サードパーティのサービス(https://anon.ai)に実際に取り組んでいます。私たちはまだ現時点でそれを開発していますが、個人情報が設定された代替値で置き換えられたテストDBを生成するのは簡単です。

$ anon push ../production_db.sql mydb 
$ anon pull mydb 

お早めにご連絡ください。

+0

[faker](https://pypi.python.org/pypi/Faker)へのリンク – rimeice

関連する問題