Habilidades o requisitos que debe tener un científico de datos
Como en la mayoría de profesiones, hay que diferenciar dos casos, lo que necesitas saber para poder trabajar como Data Scientist, que puede que tengas que utilizar de forma puntual y apoyándote en información de internet, y lo que realmente vas a necesitar aplicar en tu día a día con criterio y fluidez. Piensa que un científico de datos debe conocer los fundamentos, no ser un matemático.
Esta es la verdadera habilidad que debe tener un científico de datos y por la que será más valioso. Mucho de los softwares y herramientas utilizados en Big Data y Machine Learning se encargan de hacer la mayor parte de cálculos matemáticos por ti, sin embargo, esto no podrá hacerlo nadie.
El 80% del trabajo de un Data Scientist se basa en preparación de datos y visualización. Es la habilidad mas importante y, por ello, deberá tener habilidades muy sólidas para el análisis de datos. Exploración, limpieza, construcción de modelos y presentación de resultados.
3. Lenguajes de programación y herramientas
Dentro de Big Data y Machine Learning hay multitud de lenguajes, frameworks y herramientas: Spark, Hadoop, Cloudera, Scala… Cuantas más tecnologías sepas manejar, mayor será el valor como científico de datos y mejor el desempeño en diferentes empresas, pero por encima de todo ello, hay tres básicos que se deben conocer.
El 68% de los científicos de datos usan SQL como gestor de bases de datos relacionales. Es cierto que también deben utilizarse no relacionales porque muchas veces los datos están desestructurados, pero por su velocidad, su rendimiento y su bajo coste al poder ser ejecutado con escasos recursos es una de las tecnologías que no pueden faltar en el kit de habilidades del Data Scientist.
El 52% de estos profesionales usan R para su trabajo habitual. Se debe en gran parte a que durante años ha sido el lenguaje estadístico por excelencia. A la costumbre se le une la solidez de los frameworks y herramientas que se han ido creando con el tiempo. Pero poco a poco se está cambiando de paradigma y, a pesar de tener un gran peso en la ciencia de datos, su crecimiento está estancado. Es el lenguaje de los que se acercan a este sector desde ciencias matemáticas y otras ramas científicas.
Está siendo el némesis de R y ya es un 51% quienes lo utilizan. Con una sintaxis clara y fácil, muchos recién iniciados optan por este lenguaje, así como aquellos que vienen de ingenierías informáticas. Otra de las claves es que es un lenguaje que no tiene únicamente un enfoque estadístico, sino que puede ser utilizado para otros propósitos. Aunque a pesar de su crecimiento, aún le queda mucho trabajo por hacer desarrollando toda la infraestructura, que poco a poco es más competitiva, con iniciativas como SciPy, por ejemplo.
4. Inteligencia de negocio
Como vemos, un científico de datos debe tener un compendio de habilidades pertenecientes a mundos diferentes, y se le añade otro campo más: la visión de negocio. Debe tener la capacidad y los conocimientos necesarios para interpretar y detectar tendencias en su área y traducir estos descubrimientos en acciones que impacten sobre el negocio, crear nuevas oportunidades o comunicar sus hallazgos con el fin de promover cambios dentro de la empresa, el producto o los servicios. Porque no sirve de nada aplicar algoritmos complejos de Machine Learning a objetivos que no tienen valor para la empresa.
Es ahí donde el científico de datos debe utilizar el conocimiento para impactar en los resultados y jugar un papel importante a la hora de decidir la dirección que puede adoptar una empresa en materia de innovación.