Big Data

¡Oferta!

Big Data

US$ 250

Con el presente curso se desarrollarán casos prácticos progresivos de aplicación de ingeniería de datos al sector financiero utilizando Apache Hadoop, Apache Hive y Apache Sqoop a fin de aplicar los conceptos en el desarrollo de aplicaciones Big Data en el entorno empresarial.

Inicio         : Febrero 2022

Duración  : 40 horas (20 horas por módulo)

Horario      :

      • Modulo Hadoop : Martes y Jueves 7:00 pm a 9:30 pm,
      • Modulo Spark: Sábado 5:00 pm – 10:00 pm

Instructor      : Ing. Ronweld Bayona

Clases 100% prácticas y en vivo

Si no dispones de tarjeta de crédito o debito, ponte en contacto con nosotros al Whatsapp para darte otras opciones de pago

 

 

Categoría: Etiquetas: , , , ,

Descripción

MODULO HADOOP

  • ¿Qué es Big Data?
  • ¿Qué es Hadoop?
  • Software Open Source relacionado con Hadoop
  • El Big Data y el Cloud
  • Taller: Arquitectura empresarial de una solución Hadoop
  • Principales componentes de Hadoop
  • Como trabaja HDFS, como se almacena la data en el clúster HDFS
  • El modelo MapReduce, limitaciones de Hadoop y MapReduce
  • Aplicaciones de YARN
  • Taller: Línea de comandos HDFS (comandos básicos)
  • Tecnologías complementarias
  • Describir como Pig y Hive pueden ser usado en un entorno Hadoop
  • Describir como Flume y Sqoop pueden ser usados para mover data en Hadoop
  • Describir como Oozie es usado para planificar y controlar la ejecución de Jobs Hadoop
  • Taller: Línea de comandos HDFS (comandos avanzados)
  • Describe como Ambari puede ser usado en un entorno Hadoop
  • Verificar el estado de los clústeres
  • Iniciar y detener componentes de los clústeres
  • Modificar parámetros de configuración de Hadoop
  • Taller: Administración de Hadoop con Ambari
  • ¿Qué es Hive?, ¿Para qué se usa?
  • Describir Arquitectura Hive.
  • Describir los principales componentes de Hive.
  • Línea de comandos: Otra forma de usar Hive.
  • Taller: Línea de comandos Hive (comandos básicos)
  • Crear base de datos y tablas Hive.
  • Ejecutar diferentes comandos DDL.
  • Particionamiento para mejorar el rendimiento de los querys Hive.
  • Crear tablas externas
  • Taller: Crear un modelo analítico para el sistema financiero (parte I)
  • Introducción a Hive DML
  • Carga de data en Hive.
  • Exportar data de Hive
  • Operadores y funciones de HIVE
  • Taller: Poblar datos al modelo analítico del sistema financiero (parte II)
  • Conectar a un servidor de base de datos, seleccionar la data para importar y uso Querys para importar datos
  • Controlando paralelismo
  • Importación incremental, formatos de archivos e Importar datos a Hive
  • Exportar datos desde HDFS a un sistema de datos relacional
  • Taller: Ingesta de datos con Sqoop al modelo analítico financiero en Hive
MODULO SPARK
  • ¿Qué es Spark?
  • El Big Data y Spark (velocidad, generalidad y uso)
  • Arquitectura de Spark
  • Spark vs Hadoop – análisis comparativo
  • Principales librerías (Spark SQL, Spark Streaming, MLLib y GraphX)
  • Taller: Ambiente de trabajo (Shell Python – iniciar y usar)
  • Introducción a Resilient Distributed DataSet (RDD)
  • Trabajar con Resilient Distributed DataSet (RDD)
  • Cómo crear DataSet Externos y colecciones paralelizadas.
  • Uso de variables compartidas y pares key-value
  • Taller: Ambiente de trabajo Web (Inicio de Zeppelin, Python, Spark básico)
  • Spark Context
  • RDDs
  • Comandos básicos para RDD
  • Propiedades de reducción de operaciones
  • Cambiar el número de trabajos
  • Taller: Mi primera aplicación en Spark
  • Planes de Ejecución, Evaluación Ociosa y Manejo de Caché
  • Experimentando con Evaluación Ociosa
  • Particionamiento y Gloming
  • Reparticionamiento para Balancear Carga
  • Taller: Desarrollo de aplicaciones Spark
  • Encadenamientos de Transformaciones y Acciones
  • Manipulación de un RDD
  • Conjuntos de transformaciones: unión, intersección, substracción y cartesiano
  • Taller: Contador de palabras
  • DataFrame
  • Construir un DataFrame de un RDD de Filas
  • Definiendo un esquema
  • Cargar DataFrame desde el disco
  • Taller: Base de datos padrón reducido de local anexo (Descargado desde la Web) – Análisis de Información con Spark SQL
  • Distribuir archivos en HDFS y transformación de RDD en Spark DataFrame
  • GroupBy Vs. ReducebyKey vs Sql Group By
  • Operaciones en un DataFrame
  • Usando comandos SQL en un DataFrame
  • Taller: Base de datos bancarias – Análisis de Información con Spark SQL.
  • Configuración de Spark (properties, environment y logs)
  • Monitoreo de Spark( Web UI, metrics y external tools)
  • Recomendaciones para monitorear aplicaciones Spark
  • Taller: Configuración y Tunning de Spark

 

Información adicional

Acceso

Acceso al curso hasta 12 meses. Desde de cualquier dispositivo. Luego del registro se inicia el proceso de matricula. Las clases quedan grabadas en la plataforma de la escuela.

Campus de clases

En el proceso de matricula se emiten las claves a la plataforma de clases, al correo electrónico registrado. Sección "Escuela" de la página de Wao Gurú.

Certificado

Se emite un certificado digital de finalización con verificación de autenticidad

Evaluación

Evaluación por asistencia y trabajos prácticos en clase o tareas.

Pre requisitos

Tener instalado Microsoft Office en su equipo.

Tutoria

Tutoría privada en vivo. Totas las sesiones son en vivo, asesorando en linea a cada alumno durante el desarrollo de las clases.

Consulta aquí
1
Wao Guru
No esperes más para capacitarte en Big Data. Consúltanos detalles