INTRODUCCION

La limpieza de datos, se trata de uno de los pasos más importantes para poder organizar toda la información y poder procesarla correctamente. Al utilizar datos, la mayoría de las personas están de acuerdo en que sus conocimientos y análisis son tan buenos como los datos que están utilizando. No obstante, el llamado Data Cleansing, o limpieza de datos, es uno de los pasos más importantes para la organización de esta información si se desea crear una cultura en torno a la toma de decisiones de datos de calidad.


La limpieza de datos (en inglés data cleansing o data scrubbing) es el acto de descubrimiento y corrección o eliminación de registros de datos erróneos de una tabla o base de datos. El proceso de limpieza de datos permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc. y luego substituir, modificar o eliminar estos datos sucios ("data duty"). Después de la limpieza, la base de datos podrá ser compatible con otras bases de datos similares en el sistema.


Las inconsistencias descubiertas, modificadas o eliminadas en un conjunto de datos pueden haber sido causado por: las definiciones de diccionario de datos diferentes de entidades similares, errores de entrada del usuario y corrupción en la transmisión o el almacenaje.


La limpieza de datos se diferencia de la validación de datos, que casi siempre cumple la función de rechazar los registros erróneos durante la entrada al sistema y no en lotes de data. El proceso de limpieza de datos incluye la validación y además la corrección de datos, para alcanzar datos de calidad.


No existe una forma absoluta de prescribir los pasos exactos en el proceso de limpieza de datos porque los procesos variarán de un conjunto de datos a otro. Pero es fundamental establecer una plantilla para el proceso de limpieza de datos para que sepas que lo estás haciendo de la manera correcta en todo momento.