Fundamentos de Big Data

Course Description

Este curso de postgrado introduce a los estudiantes en el ecosistema de Big Data, cubriendo tecnologías y técnicas para el procesamiento y análisis de grandes volúmenes de datos. Se exploran herramientas como Hadoop, Spark, y bases de datos NoSQL. Los estudiantes aprenderán arquitecturas de datos distribuidos y técnicas de procesamiento en paralelo para manejar datos a escala empresarial.

Syllabus and Course Schedule

Objetivos del Curso

Comprender los principios del Big Data
Trabajar con el ecosistema Hadoop y Spark
Implementar soluciones de procesamiento distribuido
Diseñar arquitecturas de datos escalables

Contenido Temático

Introducción al Big Data y las 5 V’s
Ecosistema Hadoop (HDFS, MapReduce, YARN)
Apache Spark (RDD, DataFrames, Spark SQL)
Bases de datos NoSQL (HBase, Cassandra)
Procesamiento de streams (Kafka, Spark Streaming)
Data lakes y arquitecturas Lambda
Machine learning a escala
Casos de uso empresariales

Event	Date	Description	Materials and Assignments
Lecture 1	Saturday Apr 6	Section Topics: ¿Qué es Big Data? Desafíos y oportunidades Presentación del Syllabus	Handouts Syllabus Setup de entorno virtual
Lecture 2	Saturday Apr 13	Section Topics: Arquitectura Hadoop HDFS y MapReduce Implementación práctica	Assignments Tarea 1: WordCount en MapReduce Dataset de logs
Lecture 3	Saturday Apr 20	Section Topics: Introducción a Apache Spark RDDs y transformaciones Spark SQL	Lab Notebook de Spark Dataset de ventas
Lecture 4	Saturday Apr 27	Section Topics: Bases de datos NoSQL HBase y Cassandra Casos de uso	Assignments Tarea 2: Diseño de esquema NoSQL