Aquí se encuentran todas las scripts usadas en la Fase 2 para procesar los datos.
54 lines
1.2 KiB
Markdown
54 lines
1.2 KiB
Markdown
# Fase 2 — Procesamiento y Combinación por Año (Adicciones ↔ Violencia)
|
|
|
|
Esta fase limpia y normaliza los datos cargados en PostgreSQL, elimina outliers y genera un **dataset combinado por año** listo para análisis avanzado.
|
|
|
|
---
|
|
|
|
## Ejecución
|
|
|
|
1) Ajusta la conexión en el script si es necesario (host/puerto/DB).
|
|
2) Ejecuta el procesador:
|
|
|
|
```bash
|
|
python3 process.py
|
|
```
|
|
|
|
---
|
|
|
|
## Descripción Técnica
|
|
|
|
- Lectura de tablas desde **PostgreSQL**.
|
|
- Normalización de columnas (incluye mapeo de \`año\` desde alias como \`a_o\`, \`anio\`, etc.).
|
|
- Limpieza de valores vacíos y **eliminación de outliers (IQR)**.
|
|
- **Resumen estadístico por dataset** (solo variables numéricas).
|
|
- **Merge por \`año\`** para generar un dataset ancho (outer join).
|
|
- Salidas en CSV para su uso en Fase 3.
|
|
|
|
---
|
|
|
|
## Requisitos
|
|
|
|
Archivo \`requirements.txt\`:
|
|
|
|
```txt
|
|
pandas
|
|
sqlalchemy
|
|
psycopg2-binary
|
|
numpy
|
|
```
|
|
|
|
Instalación rápida:
|
|
|
|
```bash
|
|
pip install -r requirements.txt
|
|
```
|
|
|
|
---
|
|
|
|
## Salida
|
|
|
|
- `resumen_estadistico_por_dataset.csv` — Descriptivos numéricos por tabla.
|
|
- `dataset_combinado_por_año.csv` — Dataset ancho fusionado por año (limpio y sin outliers).
|
|
|
|
*Esta fase deja los datos listos para el análisis estadístico extensivo de la Fase 3.*
|