Saltar a contenido

Portfolio: Ing. en 🤖🧠 y 📈📊

⚙️ Feature Engineering

⚙️ Feature Engineering¶

📖 Tiempo de lectura: ~2 min (415 palabras)

📊 Visualizaciones de Feature Engineering¶

🏥 Heart Disease - Feature Scaling¶

Distribuciones de variables médicas mostrando escalas problemáticas

Boxplots comparativos antes y después del escalado

Comparación de StandardScaler, MinMaxScaler y RobustScaler

PowerTransformer, QuantileTransformer y Log Transform

Comparación crítica de metodologías con y sin data leakage

🔧 Encoding Avanzado¶

Análisis de cardinalidad en variables categóricas

Distribuciones de variables después del encoding

One-Hot Encoding vs Target Encoding vs Label Encoding

📈 Transformaciones de Datos¶

Distribuciones de variables transformadas y derivadas

PowerTransformer: Antes vs Después

QuantileTransformer: Normalización de distribuciones

Transformación logarítmica aplicada

🔍 Selección de Features¶

Ranking de features por importancia

Mutual Information vs Random Forest

🎯 Técnicas de Feature Engineering Aplicadas¶

📏 Escalado y Normalización¶

StandardScaler: Normalización Z-score
MinMaxScaler: Escalado a rango [0,1]
RobustScaler: Escalado robusto a outliers
PowerTransformer: Transformación de potencia (Yeo-Johnson)

🔄 Encoding de Variables Categóricas¶

One-Hot Encoding: Variables dummy
Label Encoding: Codificación ordinal
Target Encoding: Codificación por media del target
Frequency Encoding: Codificación por frecuencia

📊 Transformaciones de Distribuciones¶

Log Transform: Reducción de asimetría
QuantileTransformer: Normalización de distribuciones
Box-Cox Transform: Normalización paramétrica
Reciprocal Transform: Transformación inversa

🎯 Selección de Features¶

Mutual Information: Dependencia estadística
Random Forest: Importancia por reducción de impureza
Correlation Analysis: Análisis de correlaciones
Variance Threshold: Eliminación de baja varianza

🔬 Experimentos Críticos¶

⚠️ Data Leakage Prevention¶

Split-then-scale: División antes del escalado
Pipeline con CV: Cross-validation con pipelines
Comparación de metodologías: Validación de resultados

📈 Performance Impact¶

Before vs After: Comparación de métricas
Model Performance: Impacto en modelos ML
Computational Efficiency: Eficiencia computacional

💡 Insights de Feature Engineering¶

✅ Mejores Prácticas Identificadas:¶

RobustScaler es más efectivo con outliers
PowerTransformer normaliza mejor distribuciones sesgadas
Pipeline con CV previene data leakage efectivamente
Target Encoding es superior para variables categóricas de alta cardinalidad

⚠️ Cuidados Especiales:¶

Data leakage puede invalidar completamente los resultados
Outliers requieren técnicas robustas de escalado
High cardinality necesita encoding especializado
Feature selection debe validarse con múltiples métodos

📚 Ver Proyectos Completos

Heart Disease Scaling | Feature Scaling Pipeline | Advanced Encoding