Diplomado en Big Data

“Los científicos de datos tienen el trabajo más sexy del siglo XXI”

Harvard Business Review

Estos profesionales altamente solicitados combinan tres diferentes habilidades: el conocimiento del dominio empresarial, las tecnologías de Big Data y las habilidades de analíticas avanzadas para optimizar el proceso de toma de decisiones y el rendimiento organizacional.

diplomado-big-data

 DIPLOMADO EN BIG  DATA

  •  Inicio: 15 Enero 2019

  •  Duración: 160 Horas

  •  Modalidad: 100% online

Diplomado en Big Data

El auge tecnológico y el relativo bajo costo de los sistemas computacionales, como: procesadores multinúcleo, computadores, redes, clúster, grids, supercomputadores, entre otros; han puesto al alcance de un gran número de empresas la tecnología necesaria para abordar problemas complejos en diversas disciplinas del ámbito científico, industrial y organizacional.

En este contexto, el área tecnológica relacionada con Big Data aborda las herramientas, métodos y técnicas de solución y optimización que permiten el control y manejo de grandes volúmenes de datos. Para ello, se utiliza la solución de cómputo intensivo, que permite explotar eficientemente los recursos computacionales usados y obtener una significativa reducción del tiempo empleado en el análisis de los datos sin sacrificar su confiabilidad y seguridad.

Toda la versatilidad ofrecida por este campo de conocimientos está abriendo la posibilidad de nuevos modelos de negocios y nuevas oportunidades que no eran posibles con las tecnologías de información convencionales. Citando a Gartner (2015): “en 2015 van a ser necesarias 4.4 millones de personas formadas en esta disciplina, pues por cada puesto de trabajo creado en el sector de Tecnologías de la Información, se generarán tres puestos adicionales fuera de la industria tecnológica, lo que da una cifra cercana a los 15 millones de trabajos nuevos relacionados con Big Data en los próximos tres años a nivel mundial”.

“Los científicos de datos tienen el trabajo más sexy del siglo XXI”  

Harvard Business Review

Estos profesionales altamente solicitados combinan tres diferentes habilidades: el conocimiento del dominio empresarial, las tecnologías de Big Data y las habilidades de analíticas avanzadas para optimizar el proceso de toma de decisiones y el rendimiento organizacional.

Diplomado en Big Data

El DIPLOMADO en Big Data ofrece la oportunidad de adquirir los conocimientos y habilidades en las herramientas, métodos, técnicas de solución y optimización, tanto en hardware como en software, que permiten el manejo de grandes volúmenes de datos. Aprenda los nuevos enfoques de la gestión de Big Data con el proyecto Hadoop, el almacenamiento masivo distribuido por HDSF, el framework de desarrollo paralelo denominado MapReduce, las Bases de Datos NoSQL, entre otras tecnologías, las cuales le permitirán identificar, extraer, consolidar, analizar, gestionar, modelar y predecir  de forma eficaz y ágil patrones e información del Análisis de Negocio.

Acelere su carrera y domine las áreas clave necesarias para el éxito en Big Data. Conviértase en un profesional internacional que pueda impulsar la innovación en cualquier organización.

Profesionales de tecnologías de información y analítica de datos, analistas de negocio provenientes de diferentes áreas como administración, marketing, ventas, finanzas, estadística, control de gestión, o profesionales con conocimientos equiparables que quieran orientarse a la analítica de datos y especialmente al big data.

Para postularse a este programa, es necesario:

  • Tener estudios o experiencia en Análisis de datos
  • Tener conocimientos básicos en estadística, minería de datos  y procesos de Inteligencia de Negocios
  • Conocimientos en el Lenguaje R como herramienta para el análisis de datos, inferencia estadística y modelado de aprendizaje automático.

La universidad Central de Venezuela  otorgará el Diploma en Big Data a quienes hayan aprobado el programa, caso contrario se entregará una constancia de participación a los alumnos que hayan desarrollado al menos el del 80% del total del programa.

 

diplomasbi

En este diplomado, mediante ejemplos, talleres con casos reales y un adecuado enfoque metodológico, conocerás las arquitectura y framework de Big Data (Hadoop, Mapreduce) y los manejadores de Bases de Datos NoSql, para el análisis y procesamientos de grandes volúmenes de datos.

  • Adquirir un conocimiento y manejo general de herramientas para el análisis y procesamiento de datos de manera sencilla, por medio de lenguajes de programación comúnmente utilizados en Ciencias de Datos y herramientas de procesamiento distribuido como Hadoop.
  • Explorar y utilizar herramientas para el almacenamiento, procesamiento, análisis y visualización de grandes volúmenes de datos a través de asignaciones prácticas, discusiones, tutoriales y videos con casos de uso y ejemplos de la vida real.
  • Tener una visión global de las técnicas de optimización de algoritmos típicamente utilizados como parte de una solución de Big Data, por medio de ejemplos y ejercicios prácticos que demuestran su usabilidad.

Al finalizar el diplomado, los participantes estarán en capacidad de:

  • Adquirir conocimientos sobre los fundamentos de Big Data.
  • Conocer las áreas de aplicación de Big Data.
  • Conocer y Experimentar la arquitectura de Hadoop, motores de Bases de Datos NoSql y el framework MapReduce asociados al procesamiento de grandes volúmenes de datos.
  • Adquirir los conceptos necesarios para implementar algoritmos de análisis de datos: clustering, Regresión lineal, Clasificación, Vecinos más cercanos, entre otros, a partir de la base metodológica que se desarrolla en el programa.
  • Aplicar los Sistemas de Recomendación en la automatización e integración de análisis de redes sociales.
  • Aprender el lenguaje R para el análisis de grandes volúmenes de datos.
  • Impulsar el cambio a través de la organización; fomentar la reflexión y el pensamiento crítico.

El diseño del programa está orientado a presentar al participante una modalidad que le permita la reflexión y proponga la integración teoría-práctica como idea general y fuerza del proceso que plantea optimizar el tiempo de aprendizaje introduciéndolos en los conceptos y fundamentos del Big Data. Esto se logrará suministrando a los participantes una integración de conocimientos que lo prepare en todos los métodos, protocolos y aplicaciones a problemas reales del descubrimiento de patrones de comportamiento y el analisis de datos.

El Diplomado en Big Data está constituido por tres (03) módulos  y un proyecto final, el cual es de entrega obligatoria para la validación de conocimientos y aprobación del programa.

  • La era digital
  • Definiciones básicas
  • Áreas de aplicación
  • Ejemplos de Big Data
  • Introducción al Proyecto Hadoop, arquitectura / ecosistema
  • Fundamentos de la computación paralela y distribuida
  • El paradigma MapReduce
  • Algunos ejemplos básicos: Consultas y cruces de datos
  • Implementación de algoritmos de análisis de datos: clustering, regresión lineal, regresión logística, clasificación, vecinos más cercanos, entre otros
  • Sistemas de recomendación, Jerarquización con el método PageRank
  • Fundamentos del Text Mining y el Web-Mining
  • Fundamentos del análisis de redes sociales
  • Introducción a las bases de datos NoSQL (NoSQL o “no solo SQL”)
  • Tipos de bases de datos NoSQL: clave-valor, orientadas a columnas, Orientadas a documento, Bases de datos de grafos
  • Fundamentos de HBASE
  • Fundamentos de MongoDB

Formulación, diseño y ejecución de un proyecto de Big Data, bajo en enfoque de Prueba de Conceptos en el cual se debe cubrir de manera integral todos los contenido ofrecidos en el programa.

  • Módulo I: Asignaciones/Quices. Valor: 15% (03) puntos.
  • Módulo II: Asignaciones/Quices. Valor: 15% (03) puntos.
  • Módulo III: Asignaciones/Quices. Valor: 20% (04) puntos.
  • Primer avance de proyecto. Valor: 10% (02) puntos.
  • Segundo avance de proyecto. Valor: 10% (02) puntos.
  • Proyecto final: 30%  (06) puntos.

Total: 20 puntos.

La plataforma de DiplomadosOnline.com permite definir y desarrollar una metodología de trabajo colaborativa y participativa, adaptada a las exigencias del mercado y la sociedad, la cual garantiza la misma calidad formativa que se obtiene en formato presencial, con un enfoque flexible e innovador que rompe con las barreras geográficas y la incompatibilidad de horarios, permitiendo una optimización del tiempo.

Los objetivos de aprendizaje se alcanzan mediante el desarrollo semanal de píldoras de conocimientos, asignaciones  y la interacción entre alumnos y profesores en un continuo flujo de comunicación que genera constantes estímulos en el transcurso del proceso formativo, por lo que nuestra metodología de trabajo facilita el aprendizaje de cada alumno, que avanza de forma planificada en un entorno de relaciones online.

Claves del éxito de nuestros programas online:

PILDORAS-DE-CONOCIMIENTO-150x150[1]Son recursos novedosos que instrumentan cada tópico del programa en un formato integrado de recursos didácticos audiovisuales, tales comos: videos formativos, demostraciones, guías de estudio, mapas conceptuales, publicaciones en blogs, casos de estudio, infografías, tutoriales, autoevaluaciones, entre otros. Estos recursos, fuertemente relacionados, se complementan y se planifican semanalmente para un desarrollo del aprendizaje significativo.

La metodología exige y fomenta un intercambio constante de información y comunicación entre los participantes y los docentes. Los profesores, especialistas en su área de actuación y en la metodología online, tienen un triple papel de educador, facilitador y tutor, trabajando activamente en la consecución de los objetivos de enseñanza-aprendizaje y motivación, propuestos en el programa. Los recursos técnicos y las actividades propuestas generan un entorno para que los alumnos se sientan libres de participar y compartir sus experiencias.

El desarrollo del programa responde a una rigurosa planificación, con la ventaja de que las relaciones son básicamente asíncronas, y cada alumno lo puede realizar en el momento del día que le resulte más conveniente.  El seguimiento de cada estudiante es constante, con el objeto de acompañar y sostener el éxito del proceso. Se realizan de manera constante casos prácticos que aportan al alumno, además de unos sólidos fundamentos teóricos, una comprensión práctica y una relación constante y dinámica con compañeros y los profesores.

Sesiones online con clases expositivas, sesiones de discusión en que el profesor actuará como moderador de los debates o interrogantes en los foros que se puedan generar, laboratorios online para utilizar las herramientas expuestas en el programa, Seminarios web de casos de aplicaciones reales, entre otros.

Cada alumno debe realizar un proyecto, con el objetivo de aplicar los conocimientos adquiridos durante el programa, liderado por un tutor, centrada en un caso de estudio dentro de tu organización. Nuestro equipo de profesionales te apoyará de manera continua, mediante un sistema integrado de recomendaciones, para lograr tus objetivos de manera satisfactoria.

“DiplomadosOnline.com, un método para aprender haciendo”.

Los participantes aprenderán varias herramientas de la Plataforma Hadoop, con el fin de adquirir los conocimientos y las habilidades necesarias para analizar, diseñar, modelar, organizar, automatizar, integrar, monitorizar y distinta fuentes de datos para reportar analisis de negocios.

1000px-Hadoop_logo.svg[1]Tecnologías para el Almacenamiento, procesamiento, acceso. Estas tecnologías permiten almacenar, procesar y acceder  grandes volúmenes de datos, que son generados a gran velocidad y diversos formatos. Se desarrollarán talleres con Hadoop: Sistema distribuido de archivos HDFS, el Paradigma MapReduce para la distribución de tareas en cluster y los motores de Bases de datos NoSQL (MongoDB).

 

RStudio-Logo-Blue-Gradient[1]Tecnologías para el Descubrimiento y extracción de conocimiento en grandes volúmenes de datos. Mediante estas tecnologías se podrán realizar prácticas para la implementación de algoritmos de análisis de datos que permitirán resolver problemas de clustering, clasificación, regresión lineal, regresión logística  sobre Big Data.

 

“DiplomadosOnline.com, un método para aprender haciendo”.

I am text block. Click edit button to change this text. Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

Hadoop es indispensable cuando se trata de procesar grandes volúmenes de dato. En este programa se cubre una introducción a Hadoop Arquitectura, su sistema de archivos (HDFS), su motor de procesamiento (MapReduce), y muchas bibliotecas y herramientas de programación asociados con Hadoop.

El sistema de archivos distribuido Hadoop (HDFS) es el sistema de almacenamiento primario utilizado por las aplicaciones de Hadoop. HDFS es un sistema de archivos distribuido que proporciona acceso de alto rendimiento a los datos a través de clusters de Hadoop. Al igual que otras tecnologías relacionadas con Hadoop, HDFS se ha convertido en una herramienta clave para la gestión de pools de big data. HDFS está construido para soportar aplicaciones con grandes conjuntos de datos, incluidos los archivos individuales que llegan en terabytes.

MapReduce es un componente central de la plataforma de software Apache Hadoop. Hadoop permite procesamiento distribuido y flexible de conjuntos masivos de datos no estructurados a través de clusters de computadores, en la que cada nodo del clúster incluye su propio almacenamiento. MapReduce sirve para dos funciones esenciales: Se ejecuta el trabajo dentro de diversos nodos del clúster o mapa, y se organiza y reduce los resultados de cada nodo en una respuesta coherente para una consulta.

Un nuevo nombre ha entrado en muchas de las conversaciones recientemente en torno a big data. Algunos ven al recién llegado Apache Spark como un reemplazo más accesible y más potente para Hadoop. Otros reconocen a Spark como un poderoso complemento de Hadoop y otras tecnologías más consolidadas, con su propio conjunto de fortalezas, peculiaridades y limitaciones. Spark, al igual que otras herramientas de big data, es poderoso, capaz y muy apropiada para hacer frente a una serie de desafíos de datos.

Apache Hive es un sistema de data warehouse de código abierto basada en Hadoop para la consulta y el análisis de grandes conjuntos de datos almacenados en los archivos de Hadoop. Hadoop es un framework para la gestión de grandes conjuntos de datos en un entorno de computación distribuida y Hive ayuda en la indexación, almacenamiento de metadatos, permite construir funciones definidas por el usuario y mucho más.

Apache Pig es una plataforma para el análisis de grandes conjuntos de datos que consiste en un lenguaje de alto nivel para expresar los programas de análisis de datos, junto con la infraestructura para la evaluación de estos programas. La propiedad sobresaliente de los programas de Pig es que su estructura es susceptible de paralelización sustancial, que a su vez les permite manejar grandes conjuntos de datos. La capa de lenguajes de Pig se compone actualmente de un lenguaje textual llamado Latin Pig.

HBase es una base de datos no relacional distribuida, open source,  modela a partir de BigTable de Google y escrita en Java. Se desarrolla como parte del proyecto Apache Hadoop de Apache Software Foundation y se ejecuta en la parte superior de HDFS (Hadoop Distributed Filesystem), que proporciona capacidades BigTable similar para Hadoop. Proporciona una forma tolerante a fallos de almacenamiento de grandes cantidades de datos dispersos.

Sqoop es una herramienta diseñada para transferir datos entre Hadoop y servidores de bases de datos relacionales. Se utiliza para importar datos de bases de datos relacionales como MySQL, Oracle hacia Hadoop HDFS, y la exportación desde  Hadoop File System sistema hacia bases de datos relacionales.

Apache Hadoop YARN, es una tecnología de gestión de clusters. YARN es una de las características clave de la segunda generación de la versión 2 de Hadoop del framework de procesamiento distribuido de código abierto de Apache Software Foundation. Originalmente descrito por Apache como un rediseñado manejador de recursos, YARN se caracteriza ahora como el sistema operativo distribuido de gran escala,  para aplicaciones de big data.

MongoDB es una base de datos de código abierto que utiliza un modelo de datos orientada a documentos. MongoDB es uno de varios tipos de bases de datos a surgir a mediados de la década de 2000 bajo la bandera NoSQL. En lugar de utilizar tablas y filas como en las bases de datos relacionales, MongoDB está construido sobre una arquitectura de colecciones y documentos. Los documentos comprenden conjuntos de pares de clave-valor  y son la unidad básica de datos en MongoDB. Las colecciones contienen conjuntos de documentos y funcionan como el equivalente de tablas de bases de datos relacionales.

La seguridad es uno de los elementos principales de la agenda y representa uno de los requisitos críticos para los proyectos de Hadoop. Con los años, Hadoop ha evolucionado para abordar las preocupaciones en relación con la autenticación, autorización, contabilidad, y la protección de datos de forma nativa dentro de un cluster y hay muchos cluster de Hadoop seguros en producción. Hadoop está siendo utilizado de forma segura y con éxito hoy en día en aplicaciones de servicios financieros sensibles, iniciativas de salud privados y en una variedad de otros entornos sensibles a la seguridad.

JoseSosaBDMD[1]

Prof. Jose Rafael Sosa

Lic. en Computación, Universidad Central de Venezuela. Docente de Probabilidad y Estadística, Ciencia de Datos y Minería de datos, Universidad Central de Venezuela.  Presidente del Centro Nacional de Tecnologías de Información (CNTI)

Avalado por la Universidad Central de Venezuela

Formulario de solicitud de información