Saltar a contenido

Portfolio: Ing. en 🤖🧠 y 📈📊

🎯 Modelos y Evaluación

🎯 Modelos y Evaluación¶

📖 Tiempo de lectura: ~2 min (512 palabras)

📊 Visualizaciones de Modelos y Evaluación¶

💳 Credit Card Fraud - Feature Importance¶

Top 15 features más importantes según Mutual Information

Top 15 features más importantes según Random Forest

Comparación directa entre MI y RF (normalizadas)

Distribuciones comparativas: Normal vs Fraude

Análisis de distribuciones en datos financieros

⚖️ Bias Detection y Fairness¶

Análisis de sesgo algorítmico en grupos demográficos

📈 Performance y Métricas¶

Impacto del encoding en performance del modelo

Análisis de correlaciones antes y después de transformaciones

🎯 Técnicas de Modelado Aplicadas¶

🌲 Algoritmos de Machine Learning¶

Random Forest: Importancia de features y clasificación
Logistic Regression: Modelos lineales para clasificación
K-Nearest Neighbors: Clasificación basada en proximidad
Support Vector Machine: Clasificación con márgenes óptimos

📊 Evaluación de Modelos¶

Cross-Validation: Validación cruzada con k-fold
Performance Metrics: Accuracy, Precision, Recall, F1-Score
ROC-AUC: Análisis de curvas ROC
Confusion Matrix: Matrices de confusión detalladas

⚖️ Bias Detection y Fairness¶

Demographic Parity: Paridad demográfica
Equalized Odds: Oportunidades igualadas
Fairlearn: Herramientas de fairness en ML
Statistical Parity: Paridad estadística

🔬 Experimentos de Modelado¶

💳 Credit Card Fraud Detection¶

Dataset: 284,807 transacciones (0.172% fraude)
Desbalance: SMOTE para balancear clases
Métodos: Mutual Information + Random Forest
Resultado: Identificación de features críticas

🏥 Heart Disease Prediction¶

Dataset: 297 registros médicos
Objetivo: Predicción de enfermedad cardíaca
Técnicas: Feature scaling + anti-leakage
Resultado: Pipeline robusto sin data leakage

⚖️ Bias Analysis¶

Enfoque: Detección de sesgo algorítmico
Métricas: Paridad demográfica y oportunidades igualadas
Herramientas: Fairlearn library
Resultado: Análisis de fairness en modelos

📊 Métricas y Performance¶

🎯 Métricas de Clasificación¶

Accuracy: Precisión general del modelo
Precision: Exactitud en predicciones positivas
Recall: Sensibilidad en detección de casos positivos
F1-Score: Balance entre precision y recall
ROC-AUC: Área bajo la curva ROC

📈 Métricas de Fairness¶

Demographic Parity: P(Ŷ=1|A=a) = P(Ŷ=1|A=b)
Equalized Odds: P(Ŷ=1|Y=y,A=a) = P(Ŷ=1|Y=y,A=b)
Equal Opportunity: P(Ŷ=1|Y=1,A=a) = P(Ŷ=1|Y=1,A=b)

🔍 Feature Importance¶

Mutual Information: Dependencia estadística
Random Forest: Reducción de impureza
Correlation: Correlación con target
Permutation Importance: Importancia por permutación

💡 Insights de Modelado¶

✅ Mejores Prácticas Identificadas:¶

SMOTE es esencial para datasets desbalanceados
Pipeline con CV previene data leakage efectivamente
Multiple metrics proporcionan visión completa del performance
Feature importance debe validarse con múltiples métodos

⚠️ Desafíos Encontrados:¶

Desbalance extremo (0.172% fraude) requiere técnicas especiales
Data leakage puede invalidar completamente los resultados
Bias detection es crítica en aplicaciones reales
Feature selection debe balancear performance vs interpretabilidad

🎯 Recomendaciones:¶

Validación cruzada siempre con pipelines
Múltiples métricas para evaluación completa
Bias analysis en todos los modelos de producción
Feature importance con validación cruzada de métodos

📚 Ver Proyectos Completos

Credit Card Fraud | Bias Detection | Feature Importance