Científico de Datos (Data Scientist)…La profesión más sexy del siglo XXI

La demanda de científicos de datos representa ya casi dos tercios del conjunto y es la que más crece. D. J. Patil (el científico de datos “jefe” del gobierno de Obama) y Davenport la llamaron hace unos años “la profesión más sexi del siglo XXI”. Lo que sí está claro es que se trata de una nueva profesión que ha venido para quedarse. Dicen estos dos profesionales que un científico de datos es un hacker, un científico, un asesor de confianza, un matemático y un experto de negocio, todo en uno. Es un profesional que combinando conocimientos de matemáticas, estadística y programación, se encarga de analizar los grandes volúmenes de datos. A diferencia de la estadística tradicional que utilizaba muestras, el científico de datos aplica sus conocimientos estadísticos para resolver problemas de negocio aplicando las nuevas tecnologías, que permiten realizar cálculos que hasta ahora no se podían realizar.
Para ejercer esta nueva profesión nace una nueva disciplina que se encarga de extraer la información y el conocimiento de los datos, conocida comúnmente como Ciencia de Datos (Data Science), siendo los Científicos de Datos (Data Scientists), los especialistas en esta materia.

¿Qué es la Ciencia de Datos?

Cuando la gente habla de Big Data, casi siempre hablan de la Ciencia de Datos y también de Científicos de Datos. Ahora bien, así como la definición de Big Data todavía se discute, lo mismo ocurre para la definición de Ciencia de Datos. Para algunas personas, el término es sólo una forma más elegante de decir estadísticas y los estadísticos. Por otro lado, otras personas sostienen que la Ciencia de Datos es un campo distinto.
Por definición la Ciencia es un conjunto ordenado de conocimientos estructurados sistemáticamente. Este conocimiento se obtiene mediante el método científico, cuyos pasos básicos son la observación, hipótesis, experimentación y teoría.
La Ciencia de Datos (Data Science) es la extracción de conocimiento a partir de grandes volúmenes de información estructurada o no estructurada.
El término de “Ciencia de Datos” no es por sí sola una de las grandes ciencias (como matemáticas o biología); dicho de una manera fría, se pretende abarcar a un conjunto de herramientas (basadas en la ciencia) y habilidades (humanas e informáticas) con un nombre muy atractivo. Las tecnologías de Big Data empiezan a posibilitar que las empresas las adopten y empiecen a poner en valor el análisis de datos en su día a día. Pero, ahí, es cuando se dan cuenta que necesitan algo más que tecnología. La estadística para la construcción de modelos analíticos, las matemáticas para la formulación de los problemas y su expresión codificada para las máquinas, y, el conocimiento de dominio (saber del área funcional de la empresa que lo quiere adoptar, el sector de actividad económica, etc. etc.), se tornan igualmente fundamentales.

¿Qué es un Científico de Datos?

Según José Antonio Guerrero, miembro de Kaggle, la influyente plataforma que agrupa a una comunidad de 130.000 científicos de datos de todo el mundo lo define como:
“Es una persona con fundamentos en matemáticas, estadística y métodos de optimización, con conocimientos en lenguajes de programación y que además tiene una experiencia práctica en el análisis de datos reales y la elaboración de modelos predictivos. De las tres características quizás la más difícil es la tercera; no en vano la modelización de los datos se ha definido en ocasiones como un arte. Aquí no hay reglas de oro, y cada conjunto de datos es un lienzo en blanco.”
El Confidencial

Los Científicos de Datos tiene diferentes entrenamientos, técnicas, herramientas y metas que las que tienen típicamente los estadísticos. También debe tener grandes dotes de comunicación para poder explicar de forma clara y entendedora sus hallazgos tanto al área tecnológica de su empresa como al área de negocios, que le exigirá aplicaciones prácticas a los resultados que presente.

El Diagrama de Venn

Drew Conway es un importante científico de datos estadounidense que en 2010 hizo una representación gráfica de las áreas que abarca la Ciencia de Datos utilizando un diagrama de Venn, que actualmente se utiliza en la mayoría de definiciones que se hacen de la materia. Lo que intenta representar Drew Conway en el diagrama es lo siguiente:

ciencia-de-datos

Diagrama de Venn del “Científico de datos” (Fuente: Drew Conway)

Como se puede apreciar, se trata de una agregación de tres disciplinas esenciales que conforman la Ciencia de Datos. La primera es las estadísticas y las matemáticas. Que está en la parte superior derecha. La segunda, en la parte inferior, es el Conocimiento del Dominio (Substantive Expertise) que se debe poseer del entorno, por ejemplo, sobre la gerencia, la publicidad o sobre el reclutamiento en los deportes, y la tercera, la que está en la parte superior izquierda es la Codificación (Hacking Skills), o la habilidad de programación y conocimientos informáticos. Por lo tanto, para que una persona desempeñe el perfil de Científico de Datos, debe ser capaz de desempeñar estas tres habilidades.

  • Habilidades informáticas (Hacking Skills): Partiendo del hecho de que la mayor parte de los datos con los que deberá trabajar el Científico de Datos provendrán de fuentes de datos heterogéneas, por lo tanto, deberá tener las habilidades necesarias para poder extraer, ordenar, analizar y manipular estos datos utilizando distintos lenguajes de programación que le permitan crear los algoritmos necesarios en cada caso concreto.
  • Estadística y matemáticas (Math and Statistics Knowledge): Una vez extraídos los datos, el Científico de Datos deberá tener los conocimientos matemáticos necesarios para poder interpretarlos y procesarlos mediante las herramientas más adecuadas. El truco aquí es que hay una gran cantidad de conocimientos que están dentro del dominio de las estadísticas y las matemáticas, los cuales pueden ser muy contraintuitivo, y si no se posee entrenamiento formal y específico, se pueden cometer algunos errores realmente muy grandes. Un ejemplo sencillo de esto es el problema del cumpleaños en probabilidad. Este problema plantea averiguar ¿Cuántas personas necesitamos reunir para que dos de ellas coincidan en el día de su cumpleaños con una probabilidad mayor del 50%?; la intuición sugiere que para tener una probabilidad del 50% de que un par de personas cumplan años el mismo día, usted debe tener más de 180 personas en el grupo, porque esto significa tener alrededor de la mitad de los días que tiene el año. Lo sorprendente es que la respuesta correcta es mucho más pequeña. Está alrededor de las 20 personas (23 especificacmente) y eso es todo lo que necesita para tener con una probabilidad del 50% una coincidencia y cómo los Científicos de Datos a menudo van a estar buscando coincidencias y asociaciones, es muy importante que sean capaces de obtener estas probabilidades de manera correcta. Es por ello que la formación matemática es de gran importancia en la Ciencia de Datos.
  • Conocimiento del entorno (Substantive Expertise): Para poder diseñar y desarrollar la aplicación del análisis masivo de datos a diferentes casos de uso y aplicación, es necesario conocer el contexto. Por lo tanto, el científico de datos debe tener un alto conocimiento del entorno que le motive a plantear nuevos escenarios y crear nuevas hipótesis en las que trabajar, siempre cuidando la calidad de los datos, todo ello con la intención de obtener resultados que terminen incrementando el conocimiento del área de trabajo. Las organizaciones ya tienen personas que conocen sus propios datos mejor que los Científicos de Datos. Las personas internas ya adquirieron experiencia y capacidad de modelar, investigar y analizar. Es más fácil para ellos aprender un software para trabajar con Big Data como Hadoop, que aprender el área de negocio de una compañía. Eso realmente subraya la importancia del Conocimiento del Dominio de la Ciencia de Datos.

Como se ilustra en el diagrama de Venn, el Científico de Datos debe ser competente en las 3 áreas básicas descritas anteriormente. En los subconjuntos en los cuales sólo se tiene habilidad en 2 de estas 3 áreas, no estaremos hablando de Ciencia de Datos:

  • Machine Learning: Sin tener conocimiento del entorno de trabajo, es probable que no se acaben encontrando resultados útiles o adecuados para el proyecto. El objetivo del Científico de Datos no es demostrar su dominio de las herramientas de informáticas o habilidades en Estadística y matemáticas, sino en aplicar estos conocimientos para generar valor y beneficio a su entorno de trabajo. Es decir, un algoritmo de Machine Learning, por muy sofisticado y complejo que sea, no tiene ningún interés en sí mismo, lo importante es el resultado que se obtenga al utilizarlo con una finalidad concreta.
  • Investigación Tradicional: La diferencia entre el científico tradicional y el Científico de Datos, radica en gran parte en las habilidades informáticas y conocimientos en lenguajes de programación que debe tener éste último, que le permitirán poder manejar mucha más información y procesarla más rápidamente.
  • Zona Comprometida: Un pseudo-Científico de Datos que no tenga destreza en los campos de la estadísticas y las matemáticos, aunque tenga conocimiento del entorno y habilidades informáticas, es probable que procese los datos incorrectamente o los interprete de forma inadecuada, por lo que los resultados de la investigación no tendrán ninguna validez, lo que implicará obtener unas conclusiones erróneas, que incluso podrían perjudicar a futuros proyectos que se basaran en estos resultados incorrectos.

Share this post

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *