Ruta de Aprendizaje

PASO 1 - Agosto 2025
馃尡 Fundamentos de EDA
Dataset Iris: Primer contacto con an谩lisis exploratorio de datos. Aprend铆 t茅cnicas b谩sicas de visualizaci贸n con Python y Seaborn, an谩lisis estad铆stico descriptivo y patrones de clasificaci贸n.

Portfolio Setup: Configuraci贸n profesional del entorno de desarrollo con MkDocs, GitHub Pages y estructura de documentaci贸n acad茅mica.
Python B谩sico Pandas Seaborn GitHub
PASO 2 - Septiembre 2025
馃搳 An谩lisis Avanzado de Datos
Netflix Analysis: An谩lisis de tendencias globales de contenido, patrones temporales y distribuciones geogr谩ficas. Aplic茅 t茅cnicas avanzadas de EDA y profiling autom谩tico de datos.

NYC Taxi Pipeline: Primer proyecto de big data trabajando con 3M+ registros. Implement茅 pipeline automatizado con Prefect para orquestaci贸n de workflows y an谩lisis empresarial.
Big Data Prefect Data Profiling Workflow Orchestration
PASO 3 - Octubre 2025
鈿栵笍 Calidad de Datos y 脡tica
Missing Data Detective: An谩lisis forense de datos faltantes aplicando t茅cnicas de imputaci贸n y consideraciones 茅ticas sobre sesgos en datasets hist贸ricos.

Anti-leakage Pipeline: Implement茅 t茅cnicas avanzadas de prevenci贸n de data leakage con validaci贸n cruzada y pipelines robustos.

Bias Detection: Primer contacto con 茅tica en ML aplicando framework Fairlearn para detecci贸n y correcci贸n de sesgos algor铆tmicos.
Data Quality Data Leakage Fairlearn Ethics in ML
PASO 4 - Noviembre 2025
馃敡 Feature Engineering Avanzado
Feature Importance Analysis: Comparaci贸n metodol贸gica entre Mutual Information y Random Forest para selecci贸n de variables en datasets desbalanceados con aplicaci贸n de SMOTE.

Target Encoding: T茅cnicas avanzadas para manejo de variables categ贸ricas de alta cardinalidad, comparando Label, One-Hot, Target Encoding y t茅cnicas especializadas.
Feature Selection Mutual Information Target Encoding High Cardinality
PASO 5 - Exploraciones Adicionales
馃殌 Proyectos de Especializaci贸n
Wine Quality Analysis: An谩lisis de variables fisicoqu铆micas que influyen en la calidad del vino aplicando t茅cnicas de EDA avanzada.

Credit Card Fraud Detection: Trabajo con dataset extremadamente desbalanceado (0.172% de fraude) aplicando t茅cnicas de oversampling y an谩lisis de importancia de features.

Heart Disease Analysis: Replicaci贸n de t茅cnicas de feature scaling con datos m茅dicos reales y experimentos de data leakage.
SMOTE Class Imbalance Feature Scaling Medical Data