Code-Sprint/Procesamiento-Datos-2/README.md

# Fase 2 — Procesamiento y Combinación por Año (Adicciones ↔ Violencia)

Esta fase limpia y normaliza los datos cargados en PostgreSQL, elimina outliers y genera un **dataset combinado por año** listo para análisis avanzado.

---

## Ejecución

1) Ajusta la conexión en el script si es necesario (host/puerto/DB).
2) Ejecuta el procesador:

```bash
python3 process.py
```

---

## Descripción Técnica

- Lectura de tablas desde **PostgreSQL**.
- Normalización de columnas (incluye mapeo de \`año\` desde alias como \`a_o\`, \`anio\`, etc.).
- Limpieza de valores vacíos y **eliminación de outliers (IQR)**.
- **Resumen estadístico por dataset** (solo variables numéricas).
- **Merge por \`año\`** para generar un dataset ancho (outer join).
- Salidas en CSV para su uso en Fase 3.

---

## Requisitos

Archivo \`requirements.txt\`:

```txt
pandas
sqlalchemy
psycopg2-binary
numpy
```

Instalación rápida:

```bash
pip install -r requirements.txt
```

---

## Salida

- `resumen_estadistico_por_dataset.csv` — Descriptivos numéricos por tabla.
- `dataset_combinado_por_año.csv` — Dataset ancho fusionado por año (limpio y sin outliers).

*Esta fase deja los datos listos para el análisis estadístico extensivo de la Fase 3.*