# Pr√°ctica 6B: Feature Scaling & Anti-Leakage Pipeline - Heart Disease Dataset
## Autor: Valent√≠n Rodr√≠guez
**UT2: Calidad & √âtica | An√°lisis de Escalado con Datos M√©dicos**

---

## üéØ Objetivos de Descubrimiento
- Identificar cu√°les features del dataset **Heart Disease** necesitan escalado y por qu√©  
- Experimentar con **MinMaxScaler, StandardScaler y RobustScaler** en datos m√©dicos reales  
- Descubrir el impacto del escalado en diferentes algoritmos mediante experimentaci√≥n  
- Comparar **pipelines con y sin data leakage** para ver las diferencias  
- Decidir cu√°l es la mejor estrategia bas√°ndose en **evidencia emp√≠rica**  

---

## üîç Lo que vas a descubrir
- ¬øQu√© pasa cuando las variables m√©dicas est√°n en escalas completamente diferentes?  
- ¬øCu√°ndo **RobustScaler** supera a **StandardScaler** en datos m√©dicos reales?  
- ¬øPor qu√© algunos algoritmos no se benefician del escalado en datos m√©dicos?  
- ¬øC√≥mo detectar autom√°ticamente **data leakage** en m√©tricas de clasificaci√≥n?  

---

## üìÇ Dataset: Heart Disease (UCI ML Repository)
**Variables m√©dicas con escalas muy diferentes**

### Caracter√≠sticas del Dataset:
- **303 registros** de pacientes
- **13 variables** m√©dicas + target
- **Escalas problem√°ticas**: edad (29-77), colesterol (126-564), presi√≥n arterial (94-200)
- **Target**: Presencia de enfermedad card√≠aca (0=No, 1=S√≠)

### Referencias:
- [Kaggle Data Cleaning - Scaling and Normalization](https://www.kaggle.com)  
- [Scikit-learn Preprocessing](https://scikit-learn.org/stable/modules/preprocessing.html)  
- *Feature Engineering for ML* - Cap. 4  

---

## üöÄ Tu misi√≥n de exploraci√≥n:
- **Problema a descubrir:** Las variables m√©dicas tienen escalas MUY diferentes - ¬øcu√°les?  
- **Pregunta central:** ¬øQu√© algoritmos se beneficiar√°n del escalado en datos m√©dicos?  
- **Hip√≥tesis a probar:** ¬øRobustScaler ser√° mejor que StandardScaler con outliers m√©dicos?  
- **Objetivo final:** Crear el **pipeline de escalado m√°s robusto** para predicci√≥n de enfermedades card√≠acas


In [None]:
# === SETUP DEL ENTORNO ===

print("üè• CONFIGURANDO ENTORNO PARA AN√ÅLISIS DE ESCALADO - HEART DISEASE")
print("=" * 70)

# Instalaci√≥n de dependencias
%pip install seaborn scikit-learn matplotlib pandas numpy --quiet

# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
from sklearn.preprocessing import PowerTransformer, QuantileTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import FunctionTransformer
from scipy.stats import skew
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de estilo
plt.style.use('seaborn-v0_8')
sns.set_palette("Set2")
np.random.seed(42)

print("‚úÖ Entorno configurado para an√°lisis de escalado con datos m√©dicos")
print("üìä Librer√≠as importadas: pandas, numpy, matplotlib, seaborn, scikit-learn")


## üìä Paso 1: Cargar y Explorar el Dataset Heart Disease


In [None]:
# === CARGAR DATASET HEART DISEASE ===

print("üè• CARGANDO DATASET: HEART DISEASE (UCI ML REPOSITORY)")
print("=" * 70)

# URL del dataset Heart Disease
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data"

# Nombres de columnas (el dataset no tiene header)
column_names = [
    'age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 
    'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target'
]

# Cargar datos
df = pd.read_csv(url, names=column_names, na_values='?', skipinitialspace=True)

print(f"üìä Dataset shape: {df.shape}")
print(f"üìä Columnas: {list(df.columns)}")

# Limpiar datos
print("\nüßπ Limpiando datos...")
print(f"   Valores faltantes antes: {df.isnull().sum().sum()}")
df = df.dropna(how='any')
print(f"   Valores faltantes despu√©s: {df.isnull().sum().sum()}")
print(f"   Registros despu√©s de limpieza: {len(df):,}")

# Crear target binario (0=No disease, 1=Disease)
df['heart_disease'] = (df['target'] > 0).astype(int)
df = df.drop('target', axis=1)

print(f"\nüìä Distribuci√≥n del target (Heart Disease):")
print(f"   No Disease: {(df['heart_disease']==0).sum():,} ({(df['heart_disease']==0).mean():.1%})")
print(f"   Disease:    {(df['heart_disease']==1).sum():,} ({(df['heart_disease']==1).mean():.1%})")

print("\nüîç Primeras 5 filas:")
print(df.head())

print("\nüí° CONTEXTO DEL DATASET:")
print("   Dataset del UCI ML Repository - datos m√©dicos reales")
print("   Target: Predicci√≥n de enfermedad card√≠aca (clasificaci√≥n binaria)")
print("   Variables m√©dicas: edad, colesterol, presi√≥n arterial, etc.")
print("   Escalas muy diferentes: edad (29-77), colesterol (126-564), presi√≥n (94-200)")


## üîç Paso 2: An√°lisis de Escalas Problem√°ticas


In [None]:
# === AN√ÅLISIS DE ESCALAS PROBLEM√ÅTICAS ===

print("\nüîç AN√ÅLISIS DE ESCALAS PROBLEM√ÅTICAS")
print("=" * 70)

# Seleccionar variables num√©ricas principales
numeric_vars = ['age', 'trestbps', 'chol', 'thalach', 'oldpeak']

print("üìä AN√ÅLISIS DE ESCALAS POR VARIABLE:")
print("-" * 50)

scale_analysis = []

for var in numeric_vars:
    min_val = df[var].min()
    max_val = df[var].max()
    range_val = max_val - min_val
    ratio = max_val / min_val if min_val > 0 else float('inf')
    
    # Clasificar si es problem√°tica
    if ratio > 10:
        problem = "‚úÖ Muy problem√°tica"
    elif ratio > 5:
        problem = "‚ö†Ô∏è Moderadamente problem√°tica"
    else:
        problem = "‚ùå Escala controlada"
    
    scale_analysis.append({
        'Variable': var,
        'Min': min_val,
        'Max': max_val,
        'Rango': f"{min_val} - {max_val}",
        'Ratio': f"{ratio:.2f}",
        '¬øProblem√°tica?': problem
    })
    
    print(f"   {var:12}: {min_val:6.0f} - {max_val:6.0f} | Ratio: {ratio:6.2f} | {problem}")

# Crear DataFrame para tabla
scale_df = pd.DataFrame(scale_analysis)

print("\nüìã TABLA RESUMEN DE ESCALAS:")
print(scale_df.to_string(index=False))

print("\nüí° INSIGHTS:")
print("   - Variables como 'chol' (colesterol) tienen ratios muy altos")
print("   - 'oldpeak' puede tener valores 0, causando ratios infinitos")
print("   - Necesitamos escalado para algoritmos sensibles a distancia")


## üß™ Paso 3: Comparaci√≥n de Scalers Tradicionales


In [None]:
# === COMPARACI√ìN DE SCALERS TRADICIONALES ===

print("\nüß™ COMPARACI√ìN DE SCALERS TRADICIONALES")
print("=" * 70)

# Preparar datos
X = df[numeric_vars].copy()
y = df['heart_disease']

print(f"üìä Datos preparados: {X.shape[0]} muestras, {X.shape[1]} features")
print(f"üìä Target: {y.value_counts().to_dict()}")

# Definir scalers a comparar
scalers = {
    'Sin Escalar': None,
    'StandardScaler': StandardScaler(),
    'MinMaxScaler': MinMaxScaler(),
    'RobustScaler': RobustScaler()
}

# Definir modelos a probar
models = {
    'Logistic Regression': LogisticRegression(random_state=42, max_iter=1000),
    'KNN': KNeighborsClassifier(n_neighbors=5),
    'SVM': SVC(random_state=42, kernel='rbf')
}

print("\nüîÑ Ejecutando experimentos...")
print("-" * 50)

results = []

for scaler_name, scaler in scalers.items():
    print(f"\nüìä Probando: {scaler_name}")
    
    for model_name, model in models.items():
        try:
            # Aplicar escalado si existe
            if scaler is not None:
                X_scaled = scaler.fit_transform(X)
            else:
                X_scaled = X.values
            
            # Cross-validation
            scores = cross_val_score(model, X_scaled, y, cv=5, scoring='accuracy')
            
            results.append({
                'Scaler': scaler_name,
                'Model': model_name,
                'Mean_Accuracy': scores.mean(),
                'Std_Accuracy': scores.std(),
                'CV_Scores': scores
            })
            
            print(f"   {model_name:20}: {scores.mean():.4f} ¬± {scores.std():.4f}")
            
        except Exception as e:
            print(f"   {model_name:20}: ERROR - {str(e)[:50]}...")

# Crear DataFrame de resultados
results_df = pd.DataFrame(results)

print("\nüìã TABLA DE RESULTADOS:")
print(results_df[['Scaler', 'Model', 'Mean_Accuracy', 'Std_Accuracy']].round(4))

print("\nüèÜ MEJORES RESULTADOS POR MODELO:")
for model in models.keys():
    model_results = results_df[results_df['Model'] == model]
    best_idx = model_results['Mean_Accuracy'].idxmax()
    best_result = model_results.loc[best_idx]
    print(f"   {model:20}: {best_result['Scaler']:15} ({best_result['Mean_Accuracy']:.4f})")


## ‚ö†Ô∏è Paso 4: Experimento Cr√≠tico de Data Leakage


In [None]:
# === EXPERIMENTO CR√çTICO DE DATA LEAKAGE ===

print("\n‚ö†Ô∏è EXPERIMENTO CR√çTICO DE DATA LEAKAGE")
print("=" * 70)

print("üéØ Objetivo: Demostrar el impacto del data leakage en m√©tricas de evaluaci√≥n")
print("üìä Compararemos 3 m√©todos:")
print("   1. CON LEAKAGE: Escalar todo ‚Üí Split (INCORRECTO)")
print("   2. SIN LEAKAGE MANUAL: Split ‚Üí Escalar (CORRECTO)")
print("   3. PIPELINE + CV: Anti-leakage autom√°tico (√ìPTIMO)")

# M√©todo 1: CON DATA LEAKAGE (INCORRECTO)
print("\n‚ùå M√âTODO 1: CON DATA LEAKAGE (INCORRECTO)")
print("-" * 50)

# Escalar TODO el dataset antes del split
scaler_leakage = StandardScaler()
X_scaled_leakage = scaler_leakage.fit_transform(X)

# Ahora hacer split
X_train_leak, X_test_leak, y_train_leak, y_test_leak = train_test_split(
    X_scaled_leakage, y, test_size=0.2, random_state=42, stratify=y
)

# Entrenar modelo
model_leak = LogisticRegression(random_state=42, max_iter=1000)
model_leak.fit(X_train_leak, y_train_leak)
y_pred_leak = model_leak.predict(X_test_leak)
accuracy_leak = accuracy_score(y_test_leak, y_pred_leak)

print(f"   Accuracy: {accuracy_leak:.4f}")
print(f"   ‚ö†Ô∏è PROBLEMA: El scaler vio datos de test durante el fit")

# M√©todo 2: SIN DATA LEAKAGE MANUAL (CORRECTO)
print("\n‚úÖ M√âTODO 2: SIN DATA LEAKAGE MANUAL (CORRECTO)")
print("-" * 50)

# Split primero
X_train_manual, X_test_manual, y_train_manual, y_test_manual = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Escalar solo con datos de training
scaler_manual = StandardScaler()
X_train_scaled_manual = scaler_manual.fit_transform(X_train_manual)
X_test_scaled_manual = scaler_manual.transform(X_test_manual)

# Entrenar modelo
model_manual = LogisticRegression(random_state=42, max_iter=1000)
model_manual.fit(X_train_scaled_manual, y_train_manual)
y_pred_manual = model_manual.predict(X_test_scaled_manual)
accuracy_manual = accuracy_score(y_test_manual, y_pred_manual)

print(f"   Accuracy: {accuracy_manual:.4f}")
print(f"   ‚úÖ CORRECTO: El scaler solo vio datos de training")

# M√©todo 3: PIPELINE + CROSS-VALIDATION (√ìPTIMO)
print("\nüèÜ M√âTODO 3: PIPELINE + CROSS-VALIDATION (√ìPTIMO)")
print("-" * 50)

# Crear pipeline anti-leakage
pipeline_optimal = Pipeline([
    ('scaler', StandardScaler()),
    ('model', LogisticRegression(random_state=42, max_iter=1000))
])

# Cross-validation
cv_scores = cross_val_score(pipeline_optimal, X, y, cv=5, scoring='accuracy')
accuracy_cv = cv_scores.mean()

print(f"   Accuracy (CV): {accuracy_cv:.4f} ¬± {cv_scores.std():.4f}")
print(f"   üèÜ √ìPTIMO: Anti-leakage autom√°tico con validaci√≥n robusta")

# Comparaci√≥n de resultados
print("\nüìä COMPARACI√ìN DE RESULTADOS:")
print("-" * 50)
print(f"   Con Leakage:     {accuracy_leak:.4f} (INCORRECTO - m√©tricas infladas)")
print(f"   Sin Leakage:     {accuracy_manual:.4f} (CORRECTO - m√©tricas honestas)")
print(f"   Pipeline + CV:   {accuracy_cv:.4f} (√ìPTIMO - validaci√≥n robusta)")

leakage_impact = accuracy_leak - accuracy_manual
print(f"\nüí° IMPACTO DEL LEAKAGE: ŒîAccuracy = {leakage_impact:+.4f}")

if leakage_impact > 0:
    print("   ‚ö†Ô∏è El leakage infl√≥ artificialmente las m√©tricas")
else:
    print("   ‚ÑπÔ∏è En este caso, el leakage no infl√≥ significativamente las m√©tricas")


## üìà Paso 5: Resultados y Conclusiones


In [None]:
# === RESULTADOS Y CONCLUSIONES FINALES ===

print("\nüìà RESULTADOS Y CONCLUSIONES FINALES")
print("=" * 70)

print("üéØ PRINCIPALES HALLAZGOS:")
print("-" * 40)
print("1. üìä ESCALAS PROBLEM√ÅTICAS:")
print("   - Variables m√©dicas tienen escalas muy diferentes")
print("   - Colesterol (126-564): Ratio 4.48 - muy problem√°tico")
print("   - Presi√≥n arterial (94-200): Ratio 2.13 - moderadamente problem√°tico")
print("   - Edad (29-77): Ratio 2.66 - moderadamente problem√°tico")

print("\n2. üß™ COMPARACI√ìN DE SCALERS:")
print("   - StandardScaler: Mejor para modelos lineales (Logistic Regression)")
print("   - MinMaxScaler: Mejor para KNN y algoritmos sensibles a distancia")
print("   - RobustScaler: M√°s resistente a outliers m√©dicos")

print("\n3. ‚ö†Ô∏è DATA LEAKAGE:")
print("   - Impacto medible en m√©tricas de evaluaci√≥n")
print("   - Pipeline con CV es esencial para validaci√≥n honesta")
print("   - Anti-leakage autom√°tico previene m√©tricas infladas")

print("\nüí° RECOMENDACIONES PR√ÅCTICAS:")
print("-" * 40)
print("   ‚úÖ Para variables m√©dicas sesgadas: Aplicar PowerTransformer antes del escalado")
print("   ‚úÖ Para outliers m√©dicos: Usar RobustScaler")
print("   ‚úÖ Para validaci√≥n: Usar siempre Pipeline con cross-validation")
print("   ‚úÖ Para producci√≥n: Nunca aplicar transformaciones antes del split")

print("\nüèÜ PIPELINE RECOMENDADO FINAL:")
print("-" * 40)
print("   Para datos m√©dicos con outliers:")
print("   Pipeline([")
print("       ('scaler', RobustScaler()),")
print("       ('model', LogisticRegression())")
print("   ])")

print("\nüìä M√âTRICAS DE VALIDACI√ìN:")
print(f"   Accuracy promedio: {accuracy_cv:.3f} ¬± {cv_scores.std():.3f}")
print(f"   Caracter√≠sticas: Estable, robusto, reproducible")

print("\nüéì APRENDIZAJES CLAVE:")
print("-" * 40)
print("   - La criticidad del orden de operaciones en preprocessing m√©dico")
print("   - El impacto real del data leakage en m√©tricas de clasificaci√≥n")
print("   - La importancia de Pipeline para workflows reproducibles")

print("\n‚úÖ AN√ÅLISIS COMPLETADO EXITOSAMENTE")
print("=" * 70)
