Saltar a contenido

⚙️ Feature Engineering

📖 Tiempo de lectura: ~2 min (415 palabras)

📊 Visualizaciones de Feature Engineering

🏥 Heart Disease - Feature Scaling

Análisis de Escalas Distribuciones de variables médicas mostrando escalas problemáticas

Boxplots por Feature Boxplots comparativos antes y después del escalado

Comparación de Scalers Comparación de StandardScaler, MinMaxScaler y RobustScaler

Transformaciones Avanzadas PowerTransformer, QuantileTransformer y Log Transform

Experimento de Data Leakage Comparación crítica de metodologías con y sin data leakage


🔧 Encoding Avanzado

Cardinalidad de Variables Categóricas Análisis de cardinalidad en variables categóricas

Análisis de Features Codificadas Distribuciones de variables después del encoding

Comparación de Métodos de Encoding One-Hot Encoding vs Target Encoding vs Label Encoding


📈 Transformaciones de Datos

Distribuciones de Features Derivadas Distribuciones de variables transformadas y derivadas

Comparación de Transformaciones PowerTransformer: Antes vs Después

Quantile Transformer QuantileTransformer: Normalización de distribuciones

Log Transform Transformación logarítmica aplicada


🔍 Selección de Features

Top Features Más Importantes Ranking de features por importancia

Comparación de Importancia por Método Mutual Information vs Random Forest


🎯 Técnicas de Feature Engineering Aplicadas

📏 Escalado y Normalización

  • StandardScaler: Normalización Z-score
  • MinMaxScaler: Escalado a rango [0,1]
  • RobustScaler: Escalado robusto a outliers
  • PowerTransformer: Transformación de potencia (Yeo-Johnson)

🔄 Encoding de Variables Categóricas

  • One-Hot Encoding: Variables dummy
  • Label Encoding: Codificación ordinal
  • Target Encoding: Codificación por media del target
  • Frequency Encoding: Codificación por frecuencia

📊 Transformaciones de Distribuciones

  • Log Transform: Reducción de asimetría
  • QuantileTransformer: Normalización de distribuciones
  • Box-Cox Transform: Normalización paramétrica
  • Reciprocal Transform: Transformación inversa

🎯 Selección de Features

  • Mutual Information: Dependencia estadística
  • Random Forest: Importancia por reducción de impureza
  • Correlation Analysis: Análisis de correlaciones
  • Variance Threshold: Eliminación de baja varianza

🔬 Experimentos Críticos

⚠️ Data Leakage Prevention

  • Split-then-scale: División antes del escalado
  • Pipeline con CV: Cross-validation con pipelines
  • Comparación de metodologías: Validación de resultados

📈 Performance Impact

  • Before vs After: Comparación de métricas
  • Model Performance: Impacto en modelos ML
  • Computational Efficiency: Eficiencia computacional

💡 Insights de Feature Engineering

✅ Mejores Prácticas Identificadas:

  • RobustScaler es más efectivo con outliers
  • PowerTransformer normaliza mejor distribuciones sesgadas
  • Pipeline con CV previene data leakage efectivamente
  • Target Encoding es superior para variables categóricas de alta cardinalidad

⚠️ Cuidados Especiales:

  • Data leakage puede invalidar completamente los resultados
  • Outliers requieren técnicas robustas de escalado
  • High cardinality necesita encoding especializado
  • Feature selection debe validarse con múltiples métodos