# Pr√°ctica 5B: Missing Data Detective - California Housing
## Autor: Valent√≠n Rodr√≠guez
### UT2: Calidad & √âtica | Pr√°ctica Alternativa

## üéØ Objetivos B√°sicos
- Aprender a detectar y analizar datos faltantes (MCAR, MAR, MNAR)  
- Identificar outliers usando m√©todos estad√≠sticos  
- Implementar estrategias de imputaci√≥n apropiadas  
- Crear pipelines de limpieza reproducibles  
- Considerar aspectos √©ticos en el tratamiento de datos  

---

## üîç Nota √âtica sobre Elecci√≥n del Dataset

**¬øPor qu√© California Housing y no Boston Housing?**

Se comenz√≥ a utilizar el dataset de **Boston Housing**, pero a mitad del an√°lisis se encontr√≥ documentaci√≥n que inclu√≠a **problemas √©ticos** en dicho dataset:
- Variable "B" asume que auto-segregaci√≥n racial impacta positivamente los precios
- Investigaci√≥n original carec√≠a de validez en sus asunciones
- Mantenedores de scikit-learn desaconsejan su uso excepto para educaci√≥n √©tica
- Fue removido de scikit-learn desde versi√≥n 1.2+

**Decisi√≥n √©tica:** Se cambi√≥ a **California Housing** (1990) que proporciona un contexto similar (mercado inmobiliario estadounidense) sin las implicaciones √©ticas problem√°ticas, permitiendo un an√°lisis riguroso y responsable.

---

## üìã Lo que necesitas saber ANTES de empezar
- Conceptos b√°sicos de **pandas** y **visualizaci√≥n**  
- Idea general de qu√© son los **datos faltantes**  
- Curiosidad por entender **patrones en la calidad de datos**  

---

## üîç Parte 1: Setup y Carga de Datos

### üìã CONTEXTO DE NEGOCIO (CRISP-DM: Business Understanding)

### üîó Referencias oficiales:
- [Kaggle Data Cleaning - Handling Missing Values](https://www.kaggle.com)  
- [Pandas Documentation](https://pandas.pydata.org/docs/)  
- [Matplotlib Documentation](https://matplotlib.org/stable/contents.html)  
- [Seaborn Documentation](https://seaborn.pydata.org/)  
- [Scikit-learn Documentation](https://scikit-learn.org/stable/user_guide.html)  

---

## üè† Caso de negocio

- **Problema**: El dataset *California Housing* tiene datos faltantes y outliers que afectan las predicciones de precios.  
- **Objetivo**: Detectar patrones de *missing data* y outliers para limpiar el dataset.  
- **Variables**: `MEDV` (precio), `MedInc` (ingreso), `HouseAge` (edad), `AveRooms` (habitaciones), `Population` (poblaci√≥n), etc.  
- **Valor para el negocio**: Datos m√°s limpios = predicciones de precios inmobiliarios m√°s confiables.


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Todas las librer√≠as importadas correctamente")

# 3. Configurar visualizaciones
plt.style.use('seaborn-v0_8')  # estilo visual (ej: 'seaborn-v0_8', 'default', 'classic')
sns.set_palette("husl")  # paleta de colores (ej: 'husl', 'Set1', 'viridis')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("üé® Configuraci√≥n de visualizaciones lista!")


In [None]:
# === CARGAR DATASET CALIFORNIA HOUSING ===

# 1. Cargar dataset desde sklearn
from sklearn.datasets import fetch_california_housing
california = fetch_california_housing()
df = pd.DataFrame(california.data, columns=california.feature_names)
df['MEDV'] = california.target  # Variable objetivo (precio mediano en unidades de $100K)

# Agregar columnas categ√≥ricas simuladas para el an√°lisis
np.random.seed(42)

# Simular regiones de California
neighborhoods = ['Los Angeles', 'San Francisco', 'San Diego', 'San Jose', 'Oakland', 
                'Sacramento', 'Fresno', 'Long Beach', 'Bakersfield', 'Anaheim',
                'Santa Ana', 'Riverside', 'Stockton', 'Irvine']
df['NEIGHBORHOOD'] = np.random.choice(neighborhoods, size=len(df))

# Simular tipos de vivienda
house_types = ['Single Family', 'Townhouse', 'Condo', 'Multi-Family', 'Duplex']
df['HOUSE_TYPE'] = np.random.choice(house_types, size=len(df))

print("üè† DATASET: California Housing")
print(f"   üìä Forma original: {df.shape}")
print(f"   üìã Columnas: {list(df.columns)}")

# 2. Crear missing data sint√©tico para pr√°ctica
np.random.seed(42)  # para reproducibilidad

# Simular MCAR en AveOccup (8% missing aleatorio)
# "Los valores faltan al azar: que falte AveOccup no depende de la ocupaci√≥n ni del propio valor"
missing_aveoccup = np.random.random(len(df)) < 0.08
df.loc[missing_aveoccup, 'AveOccup'] = np.nan

# Simular MAR en AveRooms (missing relacionado con HouseAge)
# "Los faltantes de AveRooms se concentran en edificios m√°s antiguos (variable observada)"
old_buildings = df['HouseAge'] > df['HouseAge'].quantile(0.7)
df.loc[old_buildings, 'AveRooms'] = df.loc[old_buildings, 'AveRooms'].sample(frac=0.6, random_state=42)

# Simular MNAR en MEDV (missing relacionado con precio alto)
# "Los faltantes dependen del propio valor: quienes tienen precios altos no reportan precio"
high_price = df['MEDV'] > df['MEDV'].quantile(0.85)
df.loc[high_price, 'MEDV'] = df.loc[high_price, 'MEDV'].sample(frac=0.3, random_state=42)

print("\nüîç Missing data sint√©tico creado:")
print(df.isna().sum())  # m√©todo para contar valores faltantes por columna


In [None]:
# === EXPLORACI√ìN B√ÅSICA ===

# 1. Informaci√≥n general del dataset
print("=== INFORMACI√ìN GENERAL ===")
print(df.info())  # m√©todo que muestra tipos de datos, memoria y valores no nulos

# 2. Estad√≠sticas descriptivas
print("\n=== ESTAD√çSTICAS DESCRIPTIVAS ===")
print(df.describe(include='all'))  # m√©todo que calcula estad√≠sticas descriptivas

# 3. Tipos de datos
print("\n=== TIPOS DE DATOS ===")
print(df.dtypes)  # atributo que muestra tipos de datos por columna

# 4. Verificar missing data
print("\n=== MISSING DATA POR COLUMNA ===")
missing_count = df.isnull().sum()  # contar valores faltantes
missing_pct = (missing_count / len(df)) * 100  # calcular porcentaje

missing_stats = pd.DataFrame({
    'Column': df.columns,
    'Missing_Count': missing_count,
    'Missing_Percentage': missing_pct
})
print(missing_stats[missing_stats['Missing_Count'] > 0])

# 5. An√°lisis de memoria
print("\n=== AN√ÅLISIS DE MEMORIA ===")
total_bytes = df.memory_usage(deep=True).sum()  # m√©todo para memoria en bytes
print(f"Memoria total del DataFrame: {total_bytes / (1024**2):.2f} MB")

# 6. An√°lisis de duplicados
print("\n=== AN√ÅLISIS DE DUPLICADOS ===")
duplicates = df.duplicated()  # m√©todo para detectar filas duplicadas
print(f"N√∫mero de filas duplicadas: {duplicates.sum()}")
if duplicates.sum() > 0:
    print("Primeras 5 filas duplicadas:")
    print(df[df.duplicated()].head())  # m√©todo para filtrar duplicados


In [None]:
# === AN√ÅLISIS DE PATRONES DE MISSING DATA ===

# 1. Filtrar solo columnas con missing data para visualizaci√≥n
missing_columns = df.columns[df.isnull().any()].tolist()  # m√©todo para detectar missing
print(f"Columnas con missing data: {len(missing_columns)}")
print(f"Columnas: {missing_columns}")

# 2. Visualizaci√≥n mejorada
plt.subplot(1, 1, 1)
if len(missing_columns) > 0:
    # Crear estad√≠sticas de missing solo para columnas con missing data
    missing_count = df[missing_columns].isnull().sum()  # m√©todo para contar missing
    missing_pct = (missing_count / len(df)) * 100  # calcular porcentaje

    missing_stats_filtered = pd.DataFrame({
        'Column': missing_columns,
        'Missing_Count': missing_count,
        'Missing_Percentage': missing_pct
    }).sort_values('Missing_Percentage', ascending=False)

    # Crear gr√°fico de barras m√°s limpio
    bars = plt.bar(range(len(missing_stats_filtered)), missing_stats_filtered['Missing_Percentage'], 
                   color='steelblue', alpha=0.7, edgecolor='black', linewidth=0.5)  # funci√≥n para barras
    plt.title('Porcentaje de Missing por Columna - Boston Housing', fontsize=14, fontweight='bold')
    plt.xticks(range(len(missing_stats_filtered)), missing_stats_filtered['Column'], 
               rotation=45, ha='right')  # funci√≥n para etiquetas del eje X

    plt.ylabel('Porcentaje de Missing (%)')
    plt.grid(True, alpha=0.3, axis='y')

    # Agregar valores en las barras
    for i, bar in enumerate(bars):
        height = bar.get_height()
        plt.text(bar.get_x() + bar.get_width()/2., height + 0.5,
                f'{height:.1f}%', ha='center', va='bottom', fontsize=10)
else:
    plt.text(0.5, 0.5, 'No hay missing data', ha='center', va='center', fontsize=16)
    plt.title('Porcentaje de Missing por Columna', fontsize=14, fontweight='bold')

# Distribuci√≥n de missing por fila
plt.show()
plt.subplot(1, 1, 1)
missing_per_row = df.isnull().sum(axis=1)  # contar missing por fila
plt.hist(missing_per_row, bins=range(0, missing_per_row.max()+2), alpha=0.7, 
         edgecolor='black', color='lightcoral')  # funci√≥n para histograma
plt.title('Distribuci√≥n de Missing por Fila - Boston Housing', fontsize=14, fontweight='bold')
plt.xlabel('N√∫mero de valores faltantes por fila')
plt.ylabel('Frecuencia')
plt.grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.savefig('boston-housing-missing-patterns.png', dpi=300, bbox_inches='tight')
plt.show()


In [None]:
# === CLASIFICACI√ìN MCAR/MAR/MNAR ===

print("=== AN√ÅLISIS DE TIPOS DE MISSING ===")

# 1. NOX: ¬øMCAR o MAR?
print("\n1. NOX - An√°lisis de patrones:")
nox_missing = df['NOX'].isnull()  # m√©todo para detectar missing
print("Missing NOX por Neighborhood:")
print(df.groupby('NEIGHBORHOOD')['NOX'].apply(lambda x: x.isnull().sum()))  # contar missing por grupo

print("Missing NOX por House Type:")
print(df.groupby('HOUSE_TYPE')['NOX'].apply(lambda x: x.isnull().sum()))

# 2. RM: ¬øMAR?
print("\n2. RM - An√°lisis de patrones:")
print("Missing RM por AGE (edificios antiguos vs nuevos):")
age_groups = pd.cut(df['AGE'], bins=3, labels=['New', 'Medium', 'Old'])
print(df.groupby(age_groups)['RM'].apply(lambda x: x.isnull().sum()))

# 3. MEDV: ¬øMNAR?
print("\n3. MEDV - An√°lisis de patrones:")
price_missing = df['MEDV'].isnull()
print("Valores de MEDV en registros con missing:")
print(df[price_missing]['MEDV'].describe())  # estad√≠sticas descriptivas

# An√°lisis de correlaci√≥n entre missing y otras variables
print("\nCorrelaci√≥n entre missing de MEDV y variables socioecon√≥micas:")
missing_corr = df[price_missing][['CRIM', 'INDUS', 'NOX', 'AGE']].mean()
print(missing_corr)


In [None]:
# === DETECCI√ìN DE OUTLIERS CON IQR ===
# "Detectar extremos usando mediana y cuartiles"
# "Cu√°ndo usar: distribuciones asim√©tricas / colas pesadas / presencia de outliers"

def detect_outliers_iqr(df, column, factor=1.5):
    """Outliers por IQR. Devuelve (df_outliers, lower, upper)."""
    x = pd.to_numeric(df[column], errors="coerce")
    x_no_na = x.dropna().astype(float).values
    if x_no_na.size == 0:
        # sin datos v√°lidos
        return df.iloc[[]], np.nan, np.nan
    q1 = np.percentile(x_no_na, 25)
    q3 = np.percentile(x_no_na, 75)
    iqr = q3 - q1
    lower = q1 - factor * iqr
    upper = q3 + factor * iqr
    mask = (pd.to_numeric(df[column], errors="coerce") < lower) | (pd.to_numeric(df[column], errors="coerce") > upper)
    return df[mask], lower, upper

# Analizar outliers en columnas num√©ricas principales
numeric_columns = ['MEDV', 'CRIM', 'RM', 'AGE', 'NOX', 'LSTAT', 'PTRATIO']
outlier_analysis = {}

for col in numeric_columns:
    if col in df.columns and not df[col].isnull().all():  # m√©todo para verificar si hay missing data
        outliers, lower, upper = detect_outliers_iqr(df, col)
        outlier_analysis[col] = {
            'count': len(outliers),
            'percentage': (len(outliers) / len(df)) * 100,
            'lower_bound': lower,
            'upper_bound': upper
        }

outlier_df = pd.DataFrame(outlier_analysis).T
print("=== AN√ÅLISIS DE OUTLIERS (IQR) ===")
print("√ötil cuando la distribuci√≥n est√° chueca o con colas largas")
print(outlier_df)

# An√°lisis adicional de outliers
print("\n=== RESUMEN DE OUTLIERS ===")
total_outliers = outlier_df['count'].sum()  # m√©todo para sumar outliers
print(f"Total de outliers detectados: {total_outliers}")
print(f"Porcentaje promedio de outliers: {outlier_df['percentage'].mean():.2f}%")  # m√©todo para calcular media
print(f"Columna con m√°s outliers: {outlier_df['count'].idxmax()}")  # m√©todo para encontrar m√°ximo


In [None]:
# === DETECCI√ìN DE OUTLIERS CON Z-SCORE ===
# "Cu√°ndo usar: distribuci√≥n aprox. campana y sin colas raras"
# "Regla: 3 pasos (desvios) desde el promedio = raro"

def detect_outliers_zscore(df, column, threshold=3):
    """Detectar outliers usando Z-Score - Regla: 3 desvios desde el promedio = raro"""
    from scipy import stats
    z_scores = np.abs(stats.zscore(df[column].dropna()))
    outlier_indices = df[column].dropna().index[z_scores > threshold]
    return df.loc[outlier_indices]

# Comparar m√©todos de detecci√≥n
print("\n=== COMPARACI√ìN DE M√âTODOS DE DETECCI√ìN ===")
for col in ['MEDV', 'CRIM', 'RM', 'AGE']:
    if col in df.columns and not df[col].isnull().all():
        iqr_outliers = detect_outliers_iqr(df, col)
        zscore_outliers = detect_outliers_zscore(df, col)

        print(f"\n{col}:")
        print(f"  IQR outliers: {len(iqr_outliers[0])} ({len(iqr_outliers[0])/len(df)*100:.1f}%)")
        print(f"  Z-Score outliers: {len(zscore_outliers)} ({len(zscore_outliers)/len(df)*100:.1f}%)")


In [None]:
# === VISUALIZAR OUTLIERS ===

cols = ['MEDV', 'CRIM', 'RM', 'AGE']

fig, axes = plt.subplots(2, 2, figsize=(15, 12))  # funci√≥n para crear subplots
axes = axes.flatten()  # m√©todo para aplanar array

for i, col in enumerate(cols):
    if col not in df.columns:
        axes[i].set_visible(False)
        continue

    # convertir a num√©rico de forma segura
    y = pd.to_numeric(df[col], errors='coerce').dropna()

    if y.empty:
        axes[i].axis('off')
        axes[i].text(0.5, 0.5, f"{col}: sin datos num√©ricos", ha='center', va='center', fontsize=11)
        continue

    # Boxplot usando el vector num√©rico (evita inferencias de dtype de seaborn)
    sns.boxplot(y=y, ax=axes[i])  # funci√≥n para boxplot
    axes[i].set_title(f'Outliers en {col} - Boston Housing', fontweight='bold')
    axes[i].set_ylabel(col)

    # Outliers por IQR y bandas
    iqr_df, lower, upper = detect_outliers_iqr(df, col)
    out_vals = pd.to_numeric(iqr_df[col], errors='coerce').dropna()

    if np.isfinite(lower):
        axes[i].axhline(lower, linestyle='--', linewidth=1, label='L√≠mite IQR')
    if np.isfinite(upper):
        axes[i].axhline(upper, linestyle='--', linewidth=1)

    # Marcar outliers con un leve jitter en X para que se vean
    if len(out_vals) > 0:
        jitter_x = np.random.normal(loc=0, scale=0.02, size=len(out_vals))
        # Graficar outliers como puntos rojos con jitter en X
        axes[i].scatter(jitter_x + 0.05, out_vals, alpha=0.6, s=50, color='red', label=f'Outliers ({len(out_vals)})')
        axes[i].legend()  # m√©todo para mostrar leyenda

    # Opcional: si la variable es muy sesgada, usar escala log
    if col in ['CRIM', 'MEDV'] and y.skew() > 1:
        axes[i].set_yscale('log')
        axes[i].set_title(f'Outliers en {col} (escala log)', fontweight='bold')

plt.tight_layout() # funci√≥n para ajustar layout
plt.savefig('boston-housing-outliers-analysis.png', dpi=300, bbox_inches='tight') # funci√≥n para guardar
plt.show() # funci√≥n para mostrar gr√°fico


In [None]:
# === IMPLEMENTAR ESTRATEGIAS DE IMPUTACI√ìN ===
# "Rellenar no es gratis; hacelo columna a columna y document√°"
# "Num: mediana (si cola pesada) / media (si ~normal)"
# "Cat: moda o 'Unknown' (+ flag si sospecha MNAR)"

def impute_missing_data(df, strategy='median'):
    """Implementar diferentes estrategias de imputaci√≥n - Reglas simples de la clase"""
    df_imputed = df.copy()

    for col in df.columns:
        if df[col].isnull().any():
            if df[col].dtype in ['int64', 'float64']:
                if strategy == 'mean':
                    df_imputed[col].fillna(df[col].mean(), inplace=True)  # imputar con media
                elif strategy == 'median':
                    df_imputed[col].fillna(df[col].median(), inplace=True)  # imputar con mediana
                elif strategy == 'mode':
                    df_imputed[col].fillna(df[col].mode()[0], inplace=True)  # imputar con moda
            else:
                # Para variables categ√≥ricas
                df_imputed[col].fillna(df[col].mode()[0], inplace=True)  # imputar con moda

    return df_imputed

# Probar diferentes estrategias
strategies = ['mean', 'median', 'mode']
imputed_datasets = {}

for strategy in strategies:
    imputed_datasets[strategy] = impute_missing_data(df, strategy)
    print(f"Estrategia {strategy}: {imputed_datasets[strategy].isnull().sum().sum()} missing values restantes")


In [None]:
# === ANTI-LEAKAGE B√ÅSICO ===
# "No espi√©s el examen: fit en TRAIN, transform en VALID/TEST"
# "Split: X_train / X_valid / X_test"
# "imputer.fit(X_train) ‚Üí transform al resto"

from sklearn.model_selection import train_test_split

# 1. Split de datos (ANTES de imputar)
X = df.drop('MEDV', axis=1)  # features
y = df['MEDV']  # target

X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)
X_valid, X_test, y_valid, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

print("=== SPLIT DE DATOS ===")
print(f"Train: {X_train.shape[0]} registros")
print(f"Valid: {X_valid.shape[0]} registros") 
print(f"Test: {X_test.shape[0]} registros")

# 2. Imputar SOLO en train, luego transformar
from sklearn.impute import SimpleImputer

# Separar columnas num√©ricas y categ√≥ricas
numeric_columns = X_train.select_dtypes(include=[np.number]).columns.tolist()
categorical_columns = X_train.select_dtypes(include=['object']).columns.tolist()

print(f"Columnas num√©ricas: {len(numeric_columns)}")
print(f"Columnas categ√≥ricas: {len(categorical_columns)}")

# Crear imputers para cada tipo de dato
numeric_imputer = SimpleImputer(strategy='median')  # estrategia para num√©ricas
categorical_imputer = SimpleImputer(strategy='most_frequent')  # estrategia para categ√≥ricas

# Ajustar imputers SOLO con train
numeric_imputer.fit(X_train[numeric_columns])  # ajustar num√©ricas
categorical_imputer.fit(X_train[categorical_columns])  # ajustar categ√≥ricas

# Transformar todos los conjuntos
X_train_numeric = numeric_imputer.transform(X_train[numeric_columns])  # transformar num√©ricas
X_train_categorical = categorical_imputer.transform(X_train[categorical_columns])  # transformar categ√≥ricas

X_valid_numeric = numeric_imputer.transform(X_valid[numeric_columns])
X_valid_categorical = categorical_imputer.transform(X_valid[categorical_columns])

X_test_numeric = numeric_imputer.transform(X_test[numeric_columns])
X_test_categorical = categorical_imputer.transform(X_test[categorical_columns])

print("\n‚úÖ Anti-leakage aplicado: fit solo en train, transform en todo")


# üéØ Parte B: An√°lisis Cr√≠tico

### 1. ¬øQu√© tipo de *missing data* identificaste en cada columna? Justifica tu clasificaci√≥n.
- **NOX** ‚Üí **MCAR**. No depende de ninguna variable observable.  
- **RM** ‚Üí **MAR**. El missing est√° asociado a la variable "AGE" (edificios m√°s antiguos tienen m√°s missing de habitaciones).
- **MEDV** ‚Üí **MNAR**. Los datos faltantes se concentran en propiedades de alto precio (los valores faltan porque dependen del propio valor de la variable).

### 2. ¬øPor qu√© elegiste esas estrategias de imputaci√≥n espec√≠ficas? ¬øQu√© alternativas consideraste?
- Para **num√©ricas**, usamos mediana, porque es robusta frente a outliers en el mercado inmobiliario.
- Para **categ√≥ricas**, usamos moda, porque mantiene consistencia con las categor√≠as m√°s comunes.  
- Algunas alternativas:  
  - Imputaci√≥n con modelos predictivos como: KNN Imputer y regresiones.
  - Variables "flag" indicando si un valor fue imputado.
  - Eliminaci√≥n de registros con demasiados missing data. 

### 3. ¬øC√≥mo podr√≠an las decisiones de imputaci√≥n afectar a diferentes grupos demogr√°ficos? (ej: barrios, tipos de vivienda)
- Para "RM", usar la mediana podr√≠a sesgar los resultados hacia tipos de vivienda con m√°s habitaciones, afectando la representaci√≥n de viviendas peque√±as.
- Generar√≠amos sesgos socioecon√≥micos, afectando predicciones de modelos que influyan en decisiones como cr√©dito hipotecario e impuestos inmobiliarios. 

### 4. ¬øQu√© informaci√≥n adicional necesitar√≠as para tomar mejores decisiones sobre los outliers?
- Mayor contexto sobre el mercado inmobiliario de Boston, variables externas como tasas de inter√©s y tambi√©n un historial de los precios del mercado para a√±os anteriores.

### 5. ¬øC√≥mo garantizas que tu pipeline sea reproducible y transparente?
- Uso de scripts/notebooks versionados en GitHub con fecha y autores de los mismos. 
- Documentaci√≥n de cada paso, justificando cada decisi√≥n.  
- Guardado de outputs intermedios (tablas limpias, gr√°ficos) en carpetas organizadas.  
- Flags de imputaci√≥n para diferenciar valores originales de los imputados.  
- Usar pipelines de sklearn para que el proceso sea automatizado y pueda aplicarse en nuevos datasets sin pasos manuales.

---
