2008-11-03 14 views
13

Necesito tomar datos de producción con información real del cliente (nombres, dirección, números de teléfono, etc.) y moverlo a un entorno de desarrollo, pero me gustaría eliminar cualquier apariencia de real información del cliente.Anonimizando datos de clientes para desarrollo o pruebas

Algunas de las respuestas a this question pueden ayudarme a generar NUEVOS datos de prueba, pero ¿cómo puedo reemplazar esas columnas en mis datos de producción, pero mantener las otras columnas relevantes?

Digamos que tengo una tabla con 10000 nombres falsos. ¿Debería hacer una combinación cruzada con una actualización de SQL? O hacer algo como

UPDATE table 
SET lastname = (SELECT TOP 1 name FROM samplenames ORDER By NEWID()) 
+0

¿Conoce o no un marco de código abierto para los datos de base de datos de anonimato? –

Respuesta

9

datos de anonimato puede ser complicado y si no se hace correctamente, puede dar lugar a problemas, como le pasó a AOL when they released search data a while back. Intenté crear datos de prueba desde cero a toda costa antes de intentar convertir los datos existentes de los clientes. Las cosas pueden llevarlo a descubrir a quién pertenecían los datos usando cosas como el análisis del comportamiento y otros puntos de datos que podría no considerar sensibles. Preferiría estar a salvo que arrepentirme.

5

Esto es más fácil de lo que parece si comprende la base de datos. Una cosa que es necesaria es comprender los lugares donde la información personal no está normalizada. Por ejemplo, el archivo maestro del cliente tendrá un nombre y una dirección, pero el archivo del pedido también tendrá un nombre y una dirección que podrían ser diferentes.

Mi proceso básico:

  1. ID de los datos (es decir, las columnas), y las tablas que contienen esas columnas.
  2. Identifique las tablas "maestras" para esas columnas, y también las instancias no normalizadas de esas columnas.
  3. Ajusta los archivos maestros. En lugar de tratar de aleatorizarlos (o hacerlos falsos), conéctelos a la clave del archivo. Para el cliente 123, establezca el nombre en name123, la dirección en 123 123rd St, 123town, CA, EE. UU., Teléfono 1231231231. ¡Esto tiene la ventaja añadida de hacer que la depuración sea muy fácil!
  4. Cambiar los casos no normales, ya sea por la actualización del archivo maestro o por hacer el mismo tipo de despersonalización

No parecen bastante, pero funciona.

Cuestiones relacionadas