¡Oferta!

Big Data

Name: Big Data
SKU: 1172
Price: 250 USD
Availability: InStock

US$ 250

Con el presente curso se desarrollarán casos prácticos progresivos de aplicación de ingeniería de datos al sector financiero utilizando Apache Hadoop, Apache Hive y Apache Sqoop a fin de aplicar los conceptos en el desarrollo de aplicaciones Big Data en el entorno empresarial.

Inicio : Febrero 2022

Duración : 40 horas (20 horas por módulo)

Horario :

- - Modulo Hadoop : Martes y Jueves 7:00 pm a 9:30 pm,
  - Modulo Spark: Sábado 5:00 pm – 10:00 pm

Instructor : Ing. Ronweld Bayona

Clases 100% prácticas y en vivo

Si no dispones de tarjeta de crédito o debito, ponte en contacto con nosotros al Whatsapp para darte otras opciones de pago

Categoría: Cursos Online Vivo Etiquetas: bigdata, curso, hadoop, online, spark

Descripción
Información adicional

Descripción

MODULO HADOOP

¿Qué es Big Data?
¿Qué es Hadoop?
Software Open Source relacionado con Hadoop
El Big Data y el Cloud
Taller: Arquitectura empresarial de una solución Hadoop
Principales componentes de Hadoop
Como trabaja HDFS, como se almacena la data en el clúster HDFS
El modelo MapReduce, limitaciones de Hadoop y MapReduce
Aplicaciones de YARN
Taller: Línea de comandos HDFS (comandos básicos)
Tecnologías complementarias
Describir como Pig y Hive pueden ser usado en un entorno Hadoop
Describir como Flume y Sqoop pueden ser usados para mover data en Hadoop
Describir como Oozie es usado para planificar y controlar la ejecución de Jobs Hadoop
Taller: Línea de comandos HDFS (comandos avanzados)
Describe como Ambari puede ser usado en un entorno Hadoop
Verificar el estado de los clústeres
Iniciar y detener componentes de los clústeres
Modificar parámetros de configuración de Hadoop
Taller: Administración de Hadoop con Ambari
¿Qué es Hive?, ¿Para qué se usa?
Describir Arquitectura Hive.
Describir los principales componentes de Hive.
Línea de comandos: Otra forma de usar Hive.
Taller: Línea de comandos Hive (comandos básicos)
Crear base de datos y tablas Hive.
Ejecutar diferentes comandos DDL.
Particionamiento para mejorar el rendimiento de los querys Hive.
Crear tablas externas
Taller: Crear un modelo analítico para el sistema financiero (parte I)
Introducción a Hive DML
Carga de data en Hive.
Exportar data de Hive
Operadores y funciones de HIVE
Taller: Poblar datos al modelo analítico del sistema financiero (parte II)
Conectar a un servidor de base de datos, seleccionar la data para importar y uso Querys para importar datos
Controlando paralelismo
Importación incremental, formatos de archivos e Importar datos a Hive
Exportar datos desde HDFS a un sistema de datos relacional
Taller: Ingesta de datos con Sqoop al modelo analítico financiero en Hive

MODULO SPARK

¿Qué es Spark?
El Big Data y Spark (velocidad, generalidad y uso)
Arquitectura de Spark
Spark vs Hadoop – análisis comparativo
Principales librerías (Spark SQL, Spark Streaming, MLLib y GraphX)
Taller: Ambiente de trabajo (Shell Python – iniciar y usar)
Introducción a Resilient Distributed DataSet (RDD)
Trabajar con Resilient Distributed DataSet (RDD)
Cómo crear DataSet Externos y colecciones paralelizadas.
Uso de variables compartidas y pares key-value
Taller: Ambiente de trabajo Web (Inicio de Zeppelin, Python, Spark básico)
Spark Context
RDDs
Comandos básicos para RDD
Propiedades de reducción de operaciones
Cambiar el número de trabajos
Taller: Mi primera aplicación en Spark
Planes de Ejecución, Evaluación Ociosa y Manejo de Caché
Experimentando con Evaluación Ociosa
Particionamiento y Gloming
Reparticionamiento para Balancear Carga
Taller: Desarrollo de aplicaciones Spark
Encadenamientos de Transformaciones y Acciones
Manipulación de un RDD
Conjuntos de transformaciones: unión, intersección, substracción y cartesiano
Taller: Contador de palabras
DataFrame
Construir un DataFrame de un RDD de Filas
Definiendo un esquema
Cargar DataFrame desde el disco
Taller: Base de datos padrón reducido de local anexo (Descargado desde la Web) – Análisis de Información con Spark SQL
Distribuir archivos en HDFS y transformación de RDD en Spark DataFrame
GroupBy Vs. ReducebyKey vs Sql Group By
Operaciones en un DataFrame
Usando comandos SQL en un DataFrame
Taller: Base de datos bancarias – Análisis de Información con Spark SQL.
Configuración de Spark (properties, environment y logs)
Monitoreo de Spark( Web UI, metrics y external tools)
Recomendaciones para monitorear aplicaciones Spark
Taller: Configuración y Tunning de Spark

Información adicional

Acceso	Acceso al curso hasta 12 meses. Desde de cualquier dispositivo. Luego del registro se inicia el proceso de matricula. Las clases quedan grabadas en la plataforma de la escuela.
Campus de clases	En el proceso de matricula se emiten las claves a la plataforma de clases, al correo electrónico registrado. Sección "Escuela" de la página de Wao Gurú.
Certificado	Se emite un certificado digital de finalización con verificación de autenticidad
Evaluación	Evaluación por asistencia y trabajos prácticos en clase o tareas.
Pre requisitos	Tener instalado Microsoft Office en su equipo.
Tutoria	Tutoría privada en vivo. Totas las sesiones son en vivo, asesorando en linea a cada alumno durante el desarrollo de las clases.

Big Data

Big Data

Clases 100% prácticas y en vivo

Descripción

Información adicional

Productos relacionados

Data Pack

Power BI Profesional

Diseño Gráfico

Python Gestión