Code-Sprint/Procesamiento-Datos-2/README.md
diqueran 0b1fef90ae Subida de Archivos de Procesamiento de Datos
Aquí se encuentran todas las scripts usadas en la Fase 2 para procesar los datos.
2025-10-28 15:44:27 +01:00

54 lines
1.2 KiB
Markdown

# Fase 2 — Procesamiento y Combinación por Año (Adicciones ↔ Violencia)
Esta fase limpia y normaliza los datos cargados en PostgreSQL, elimina outliers y genera un **dataset combinado por año** listo para análisis avanzado.
---
## Ejecución
1) Ajusta la conexión en el script si es necesario (host/puerto/DB).
2) Ejecuta el procesador:
```bash
python3 process.py
```
---
## Descripción Técnica
- Lectura de tablas desde **PostgreSQL**.
- Normalización de columnas (incluye mapeo de \`año\` desde alias como \`a_o\`, \`anio\`, etc.).
- Limpieza de valores vacíos y **eliminación de outliers (IQR)**.
- **Resumen estadístico por dataset** (solo variables numéricas).
- **Merge por \`año\`** para generar un dataset ancho (outer join).
- Salidas en CSV para su uso en Fase 3.
---
## Requisitos
Archivo \`requirements.txt\`:
```txt
pandas
sqlalchemy
psycopg2-binary
numpy
```
Instalación rápida:
```bash
pip install -r requirements.txt
```
---
## Salida
- `resumen_estadistico_por_dataset.csv` — Descriptivos numéricos por tabla.
- `dataset_combinado_por_año.csv` — Dataset ancho fusionado por año (limpio y sin outliers).
*Esta fase deja los datos listos para el análisis estadístico extensivo de la Fase 3.*