Saltar a contenido

Práctica 1 – Análisis Exploratorio del Dataset Iris

📖 Tiempo de lectura: ~2 min (393 palabras)

Autores: Alexia Aurrecochea & Valentín Rodríguez
Fecha: 13/08/2025
Entorno: Google Colab + Python 3

Objetivo

El propósito de este notebook es realizar una exploración inicial del dataset Iris, disponible públicamente en el UCI Machine Learning Repository. A través del uso de herramientas de visualización, manipulación y descripción estadística, se busca: - Comprender las características principales del dataset. - Identificar patrones, relaciones y posibles outliers. - Organizar los outputs en una estructura reutilizable de carpetas (results/).

Requisitos y dependencias

Este notebook se ejecuta en Google Colab (link), por lo que la mayoría de los paquetes ya están disponibles por defecto. Sin embargo, se instala seaborn si no está presente.

Librerías utilizadas

  • pandas
  • matplotlib
  • seaborn
  • pathlib

Instrucciones de instalación (en Colab)

!pip install seaborn  # Solo si no está instalado

Estructura del proyecto

El notebook define una estructura clara de carpetas dentro del directorio results/, con subdirectorios:

results/
├── visualizaciones/   # Gráficos generados (histogramas, pairplots, etc.)
├── perfiles/          # Archivos con perfiles estadísticos u otras salidas numéricas
└── reportes/          # Reportes textuales o exportaciones si se generan

Dataset Iris

  • Tamaño: 150 filas × 5 columnas
  • Columnas:
  • sepal_length (cm)
  • sepal_width (cm)
  • petal_length (cm)
  • petal_width (cm)
  • species (Setosa, Versicolor, Virginica)

  • Fuente original: UCI Machine Learning Repository

  • Naturaleza del problema: Clasificación multiclase
  • Instancias: 50 de cada Especie

Actividades realizadas

  • Montaje de Google Drive (opcional, para guardar resultados)
  • Lectura y descripción del dataset
  • Verificación del entorno (versiones de librerías, paths)
  • Análisis visual con seaborn (distribuciones, pairplots, etc.)
  • Preparación de carpetas para almacenar resultados de forma organizada

Salidas esperadas

Al ejecutar el notebook se generan: - Gráficos en results/visualizaciones/ - Archivos numéricos o perfiles si se configuran, en results/perfiles/ - (Opcional) Reportes descriptivos en results/reportes/

Ejecución

Este notebook está pensado para ejecutarse en Google Colab, por lo que no requiere instalación local. Simplemente abrí el notebook y seguí las celdas secuencialmente.

Notas finales

  • Este trabajo es parte de una serie de prácticas de introducción al análisis exploratorio de datos.
  • El formato y desarollo del README.md fue dirigido por ejemplos externos (consultar docente).
  • El enfoque está en la claridad del proceso y la organización del proyecto desde el principio.
  • Se prioriza reproducibilidad y orden para futuras prácticas más avanzadas (modelado, clasificación, etc).