En los últimos tiempos se habla mucho de big data. Y no es para menos. La información en las empresas crece de manera exponencial y todo indica que se llevará el gato al agua aquel que sepa leer en ese océano informativo para conocer al instante las tendencias de mercado y las demandas de sus clientes.
Sin embargo, ahora empezamos a oír otro término que no suena tan bien. Se trata del dirty data, que en realidad es la información alojada en las bases de datos de todo tipo con que cuentan las empresas, pero a la que no conviene hacer mucho caso porque es incorrecta, o está incompleta, desactualizada y cargada de duplicados.
Antonio Camacho, fundador de Hocelot, una startup de capital español especializada en la verificación de información de personas físicas en tiempo real, detecta el origen del dirty data: “Las empresas desarrollaron algoritmos muy potentes para recabar y procesar información, pero dejaron en el olvido la necesidad de verificar toda esa gran masa de datos que reúnen”. Y es que muchos usuarios que aportan datos a las compañías transmiten datos falsos en su información que luego nadie -ni ser de carne y hueso ni máquina- se encarga de verificar.
Según Hocelot, casi uno de cada cuatro usuarios asegura que ha falseado su fecha de nacimiento de forma ocasional. Por todo ello, se hace cada día más necesario que los sistemas de big data no sólo muevan gran cantidad de información, sino que la limpien, garantizando la veracidad de la misma. De no hacerlo, muchas acciones de promoción de las compañías, como las campañas de e-mailing, serán totalmente inútiles. También el dirty puede hacer fracasar un proceso de selección donde los currículos aportan datos falseados. Son sólo dos efectos perniciosos de los que dejen la casa sin barrer.