De los datos a los algoritmos

Vamos a ver someramente cómo es el proceso previo de preparación de los datos. Es habitual enfrentarse a un proyecto de análisis predictivo con muchos datos. Muchos es muchos. La primera tarea es recopilarlos todos. Normalmente están en diferentes repositorios:

En el CRM de la empresa.
En bases de datos SQL (o noSQL).
En hojas de cálculo.
En las redes sociales.
En el programa de facturación empresarial.
En el programa de gestión de las listas de correo electrónico.
En los informes de transacciones bancarias.
En la cabeza de alguien.

Frecuentemente estos datos están “sucios”, es decir, tienen errores o discrepancias entre los diferentes campos que están en bases de datos distintas. Por ejemplo, es posible que la letra “ñ” o los acentos estén codificados en diferentes formatos en función de dónde hayamos recogido el dato. La fase de limpieza de datos comprende, entre otras tareas:

Igualar formatos
Descartar campos
Corregir errores ortográficos
Dar formato a fechas
Eliminar columnas duplicadas
Borrar registros no útiles

Con los datos “limpios” ya se puede empezar a hacer una selección de los que serán útiles para hacer las predicciones. En esta fase hay que quedarse con la “señal” y eliminar los campos que aporten “ruido”. Este trabajo se suele llamar Feature Engineering:

Descartar los campos con contenido aleatorio
Descartar los campos dependientes
Seleccionar los que son “predictores”

La transformación de los datos, que también pertenece a la llamada Feature Engineering, trata de generar nuevos campos predictores basados en los que ya se tienen. El conocimiento del dominio (del negocio, del ámbito que se está analizando) es fundamental para abordar esta fase. Esta, junto con la fase de selección de campos predictores, son las que más esfuerzo intelectual y creativo necesitan, ya que no sólo hay que conocer el ámbito de estudio, sino que es necesario conocer con cierta profundidad cómo funcionan los algoritmos predictivos, cómo interpretan internamente los datos y cómo se buscan las relaciones entre ellos.

A modo de ejemplo, se puede pensar que en un proyecto de predicción de baja de clientes es suficiente con disponer de la fecha de alta y la de baja. Podríamos interpretar que el algoritmo, analizando estos dos datos, es capaz de “deducir” la antigüedad del cliente. Pero no es así. La transformación, en este caso muy sencilla, sería añadir un nuevo campo que fuera la resta de las dos fechas y transformarlo en número de días (o meses, o años, en función de que lo consideremos mejor). Una pequeña modificación como esta puede mejorar enormemente la capacidad predictiva del sistema.

Ingeniería de Funciones o de Atributos (Feature Engineering)

La ingeniería de funciones o features engineering, suele ser la fase más larga y compleja de la compilación de su proyecto de AA (Aprendizaje Autónomo). En este tipo de proceso, comenzará con sus datos sin procesar y usará sus propios conocimientos del dominio para crear atributos que harán funcionar sus algoritmos de aprendizaje automático. El Feature Engineering, que hace referencia a las técnicas de ingeniería utilizadas para trabajar sobre los atributos del problema que estudiamos, representa uno de los aspectos más delicados de las data sciences

La feature engineering, se trata del proceso previo a la creación del modelo de predicción en el que se hace un análisis, limpieza y estructuración de los campos de los datos. Este proceso es uno de los más importantes y más costosos del proceso de predicción. El objetivo es eliminar los campos que no sirven para hacer la predicción y organizarlos adecuadamente para que el modelo no reciba información que no le es útil y que podría provocar predicciones de poca calidad o confianza. En pocas palabras, es el proceso que elimina el ruido de la señal.

De datos sin procesar a atributos

La ingeniería de atributos (features engineering), suele ser la fase más larga y compleja de la compilación de su proyecto de AA. En el proceso, comenzará con sus datos sin procesar y usará sus propios conocimientos del dominio para crear atributos que harán funcionar sus algoritmos de aprendizaje automático. En este punto, se exploran cuáles son las características de un buen atributo y cómo representarlos en su modelo de AA.

Preprocesamiento y creación de atributos

Aqui, se abordan el preprocesamiento y la creación de atributos, que son técnicas de procesamiento de datos que pueden ayudarlo a preparar un conjunto de atributos para un sistema de aprendizaje automático.

Combinaciones de atributos

En el aprendizaje automático tradicional, las combinaciones de atributos no se emplean con tanta frecuencia, pero en los métodos de AA actuales son un parte invaluable de su kit de herramientas. De esta manera, aprenderás a reconocer los tipos de problemas en los que las combinaciones de atributos son una forma eficiente de ayudar a que las máquinas aprendan.

TensorFlow Transform

TensorFlow Transform, es una biblioteca para el preprocesamiento de datos útil para el preprocesamiento que requiere un pase completo de los datos, como normalizar un valor de entrada mediante las funciones mean y stdev; convertir vocabulario en números enteros mediante la búsqueda de valores en todos los ejemplos de entrada, y agrupar entradas en buckets según la distribución de los datos observados.

En efecto, las características de un problema determinado no siempre se presentan de manera natural y evidente. Hace falta bastante esfuerzo para imaginar cuáles podrían ser los atributos adecuados, crearlos, seleccionarlos, probarlos y transformarlos para hacerlos relevantes y asimilables por nuestros algoritmos. Las buenas prácticas requieren buenos atributos (en inglés, predictors o features).

El trabajo en la elección y la parametrización de los modelos, la medición de los errores de predicción (o de clasificación) y la atenta interpretación de los resultados son tres elementos indisociables de la disciplina llamada Feature Engineering. La idea general es ajustar y transformar los datos brutos (data) para que nos aporten una mayor información.

Page updated

Google Sites

Report abuse