Descripción
MODULO HADOOP
- ¿Qué es Big Data?
- ¿Qué es Hadoop?
- Software Open Source relacionado con Hadoop
- El Big Data y el Cloud
- Taller: Arquitectura empresarial de una solución Hadoop
- Principales componentes de Hadoop
- Como trabaja HDFS, como se almacena la data en el clúster HDFS
- El modelo MapReduce, limitaciones de Hadoop y MapReduce
- Aplicaciones de YARN
- Taller: Línea de comandos HDFS (comandos básicos)
- Tecnologías complementarias
- Describir como Pig y Hive pueden ser usado en un entorno Hadoop
- Describir como Flume y Sqoop pueden ser usados para mover data en Hadoop
- Describir como Oozie es usado para planificar y controlar la ejecución de Jobs Hadoop
- Taller: Línea de comandos HDFS (comandos avanzados)
- Describe como Ambari puede ser usado en un entorno Hadoop
- Verificar el estado de los clústeres
- Iniciar y detener componentes de los clústeres
- Modificar parámetros de configuración de Hadoop
- Taller: Administración de Hadoop con Ambari
- ¿Qué es Hive?, ¿Para qué se usa?
- Describir Arquitectura Hive.
- Describir los principales componentes de Hive.
- Línea de comandos: Otra forma de usar Hive.
- Taller: Línea de comandos Hive (comandos básicos)
- Crear base de datos y tablas Hive.
- Ejecutar diferentes comandos DDL.
- Particionamiento para mejorar el rendimiento de los querys Hive.
- Crear tablas externas
- Taller: Crear un modelo analítico para el sistema financiero (parte I)
- Introducción a Hive DML
- Carga de data en Hive.
- Exportar data de Hive
- Operadores y funciones de HIVE
- Taller: Poblar datos al modelo analítico del sistema financiero (parte II)
- Conectar a un servidor de base de datos, seleccionar la data para importar y uso Querys para importar datos
- Controlando paralelismo
- Importación incremental, formatos de archivos e Importar datos a Hive
- Exportar datos desde HDFS a un sistema de datos relacional
- Taller: Ingesta de datos con Sqoop al modelo analítico financiero en Hive
- ¿Qué es Spark?
- El Big Data y Spark (velocidad, generalidad y uso)
- Arquitectura de Spark
- Spark vs Hadoop – análisis comparativo
- Principales librerías (Spark SQL, Spark Streaming, MLLib y GraphX)
- Taller: Ambiente de trabajo (Shell Python – iniciar y usar)
- Introducción a Resilient Distributed DataSet (RDD)
- Trabajar con Resilient Distributed DataSet (RDD)
- Cómo crear DataSet Externos y colecciones paralelizadas.
- Uso de variables compartidas y pares key-value
- Taller: Ambiente de trabajo Web (Inicio de Zeppelin, Python, Spark básico)
- Spark Context
- RDDs
- Comandos básicos para RDD
- Propiedades de reducción de operaciones
- Cambiar el número de trabajos
- Taller: Mi primera aplicación en Spark
- Planes de Ejecución, Evaluación Ociosa y Manejo de Caché
- Experimentando con Evaluación Ociosa
- Particionamiento y Gloming
- Reparticionamiento para Balancear Carga
- Taller: Desarrollo de aplicaciones Spark
- Encadenamientos de Transformaciones y Acciones
- Manipulación de un RDD
- Conjuntos de transformaciones: unión, intersección, substracción y cartesiano
- Taller: Contador de palabras
- DataFrame
- Construir un DataFrame de un RDD de Filas
- Definiendo un esquema
- Cargar DataFrame desde el disco
- Taller: Base de datos padrón reducido de local anexo (Descargado desde la Web) – Análisis de Información con Spark SQL
- Distribuir archivos en HDFS y transformación de RDD en Spark DataFrame
- GroupBy Vs. ReducebyKey vs Sql Group By
- Operaciones en un DataFrame
- Usando comandos SQL en un DataFrame
- Taller: Base de datos bancarias – Análisis de Información con Spark SQL.
- Configuración de Spark (properties, environment y logs)
- Monitoreo de Spark( Web UI, metrics y external tools)
- Recomendaciones para monitorear aplicaciones Spark
- Taller: Configuración y Tunning de Spark