⚙️ Feature Engineering¶
📊 Visualizaciones de Feature Engineering¶
🏥 Heart Disease - Feature Scaling¶
Distribuciones de variables médicas mostrando escalas problemáticas
Boxplots comparativos antes y después del escalado
Comparación de StandardScaler, MinMaxScaler y RobustScaler
PowerTransformer, QuantileTransformer y Log Transform
Comparación crítica de metodologías con y sin data leakage
🔧 Encoding Avanzado¶
Análisis de cardinalidad en variables categóricas
Distribuciones de variables después del encoding
One-Hot Encoding vs Target Encoding vs Label Encoding
📈 Transformaciones de Datos¶
Distribuciones de variables transformadas y derivadas
PowerTransformer: Antes vs Después
QuantileTransformer: Normalización de distribuciones
Transformación logarítmica aplicada
🔍 Selección de Features¶
Ranking de features por importancia
Mutual Information vs Random Forest
🎯 Técnicas de Feature Engineering Aplicadas¶
📏 Escalado y Normalización¶
- StandardScaler: Normalización Z-score
- MinMaxScaler: Escalado a rango [0,1]
- RobustScaler: Escalado robusto a outliers
- PowerTransformer: Transformación de potencia (Yeo-Johnson)
🔄 Encoding de Variables Categóricas¶
- One-Hot Encoding: Variables dummy
- Label Encoding: Codificación ordinal
- Target Encoding: Codificación por media del target
- Frequency Encoding: Codificación por frecuencia
📊 Transformaciones de Distribuciones¶
- Log Transform: Reducción de asimetría
- QuantileTransformer: Normalización de distribuciones
- Box-Cox Transform: Normalización paramétrica
- Reciprocal Transform: Transformación inversa
🎯 Selección de Features¶
- Mutual Information: Dependencia estadística
- Random Forest: Importancia por reducción de impureza
- Correlation Analysis: Análisis de correlaciones
- Variance Threshold: Eliminación de baja varianza
🔬 Experimentos Críticos¶
⚠️ Data Leakage Prevention¶
- Split-then-scale: División antes del escalado
- Pipeline con CV: Cross-validation con pipelines
- Comparación de metodologías: Validación de resultados
📈 Performance Impact¶
- Before vs After: Comparación de métricas
- Model Performance: Impacto en modelos ML
- Computational Efficiency: Eficiencia computacional
💡 Insights de Feature Engineering¶
✅ Mejores Prácticas Identificadas:¶
- RobustScaler es más efectivo con outliers
- PowerTransformer normaliza mejor distribuciones sesgadas
- Pipeline con CV previene data leakage efectivamente
- Target Encoding es superior para variables categóricas de alta cardinalidad
⚠️ Cuidados Especiales:¶
- Data leakage puede invalidar completamente los resultados
- Outliers requieren técnicas robustas de escalado
- High cardinality necesita encoding especializado
- Feature selection debe validarse con múltiples métodos
📚 Ver Proyectos Completos
Heart Disease Scaling | Feature Scaling Pipeline | Advanced Encoding