Habilidades que debe poseer un Cientifico de Datos

Algunos de los obstáculos a los que se puede enfrentar una organización para el análisis de Big Data, además de contar con el hardware y software necesario, es encontrar al personal que tenga las habilidades necesarias para entender el comportamiento de los datos para extraer información útil. De acuerdo con Patil (el científico de datos “jefe” del gobierno de Obama), algunas de las características que deben tener estas personas son:

  • Experiencia técnica, es necesario que tenga antecedentes en diferentes campos como la informática, las matemáticas y la estadística; junto con un amplio conocimiento del negocio para que, una vez recolectados los datos, pueda utilizarlos y aplicarle distintos procesos para obtener el máximo valor de los datos al analizarlos
  • Curiosidad, resolviendo distintas cuestiones que les permiten hacer múltiples descubrimientos al analizar los datos
  • Inteligente, es la capacidad de poder resolver un problema mediante diferentes formas creativas
  • Habilidad de comunicación, no solo en el ámbito de la tecnología, sino también en el campo de negocios para que un directivo pueda comprender fácilmente los resultados obtenidos del análisis ofreciendo a las organizaciones una ventaja competitiva

Entre las actividades que realizan se encuentran las necesarias para extraer datos desde diferentes fuentes y trabajarlos como un conjunto; transformarlos y organizarlos para darle sentido a los datos sin importar las restricciones de hardware y software; aplicar técnicas de minería para analizarlos y encontrar conocimientos y relaciones inesperadas entre ellos; identificar las técnicas de visualización que mejor se ajusten a las características de los datos para facilitar su transmisión a los involucrados en el negocio.

El trabajo de científico de datos es considerado como un trabajo prometedor debido a la escasez de personas con este perfil y a la necesidad que tienen las empresas no sólo de conocer su entorno sino también de conocerse a sí mismas mediante el análisis de Big Data, esta es una de las razones por las que estas personas son bien remuneradas económicamente y solo unas cuantas grandes organizaciones como Twitter, Facebook, Amazon, Google (por mencionar algunas) pueden pagar sus salarios. Uno de los cuidados que debe tener en consideración un científico de datos, cuando esté trabajando en una organización, es mantenerse actualizado y manejar un conjunto de herramientas que estén dentro del estado del arte con la finalidad de proveer mejores resultados.

Harlan Harris (@HarlanH), Sean Murphy y Marck Vaisman (@wahalulu), 3 reconocidos e influyentes Científicos de Datos con amplia experiencia y responsabilidades en el ámbito de la Ciencia de Datos, hicieron un interesante estudio a mediados de 2012, entrevistando a unos 250 Científicos de Datos para que fueran ellos mismos los que describieran sus habilidades e indicarán el tipo de trabajo que hacían en su empresa u organización.

El estudio y análisis de las entrevistas lo publicaron en 2013 a través de la editorial especializada en libros técnicos O’Reilly, bajo el título Analyzing the analyzers: An Introspective survey of Data Scientists and their Work. La descarga en formato electrónico es gratuita.

Lo interesante del estudio es que son los propios Científicos de Datos los que se autodefinen, independientemente de los estudios, títulos académicos, años de experiencia o remuneraciones que tengan.

Los autores empezaron pidiendo a los encuestados que se clasificaran a ellos mismos en 11 perfiles distintos, según si creían que encajaban o no en dicho perfil en una escala del 1 al 5.

A partir de las respuestas, los autores utilizaron algoritmos de machine learning y clustering (que podríamos traducir por agrupaciones) para crear 4 sub-grupos donde clasificaron a todos los encuestados según su propia percepción. Los sub-grupos fueron:

  1. Desarrollador de datos, que es el que se encarga de resolver problemas técnicos y gestionar los datos (recolectar, almacenar y aprender de los datos)
  2. Investigador de datos, tiene la función de entender procesos complicados sin importar el tipo de negocio gracias a sus conocimientos académicos y realizar análisis estadísticos con los datos
  3. Innovador de datos, Al igual que el investigador de datos, cuenta con un amplio conocimiento académico y manejan un amplio repertorio de herramientas y tecnologías para resolver problemas de análisis de datos de la mejor manera
  4. Persona de negocios de datos, son aquellos que se enfocan en la organización y cómo obtener ganancia de los proyectos de datos.

profesional-identities
Del mismo modo los autores también facilitaron un listado de 22 habilidades genéricas del entorno de la Ciencia de Datos a los encuestados para que ellos mismos las ordenaran según su la propia percepción que tenían de ellos mismos. De manera similar al caso anterior, procesaron las respuestas y crearon 5 grupos de habilidades: Negocio, Machine Learning / Big Data, Matemáticas, Programación y Estadísticas.

profesional-identities-2

Y finalmente, los autores cruzaron los datos de los perfiles en el cual los encuestados se habían autodefinido con las habilidades que indicaron tener y realizaron el siguiente gráfico de mosaico. Para cada perfil, se puede ver cuáles son las habilidades dominantes.


profesional-identities-3

El siguiente gráfico, resume el resultado del estudio, que determina que los Científicos de Datos son profesionales muy heterogéneos y que en general, tienen todos ellos habilidades en distintos ámbitos, aunque como era de esperar, están más focalizados en una u otra habilidad según su especialidad. Cabe destacar el caso de los que se autodefinen como Creativos, que no tienen una habilidad mucho más predominante que las demás.

profesional-identities-4

Habilidades descritas por los Científicos de Datos encuestados en función del grupo en el que se habían autodefinido. Fuente: Analyzing the Analyzers.

En Resumen

  • No todos los Data Scientists son iguales. Un científico de datos no trabaja solo, se necesita un equipo que sume sus fortalezas y su conocimiento del dominio de los datos para obtener los mejores resultados.
  • Aunque cada rol tiene fortalezas especialmente en un grupo de habilidades, un científico de datos debe conocer lo suficiente de los otros grupos de habilidades como para facilitar las discusiones.
  • La interdisciplinaridad de un equipo de análisis de datos es una de sus mayores fortalezas.
  • Data Science no implica Big Data, aunque sean términos que se relacionan.
  • Independientemente de la categoría en la que se encuentre un científico de datos, se estima que para 2018 la demanda de personas con este perfil podría superar la oferta que se produce actualmente por 140,000 y 190,000 puestos (McKinsey).

Share this post

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *