Aquí se encuentran todas las scripts usadas en la Fase 2 para procesar los datos.
1.2 KiB
1.2 KiB
Fase 2 — Procesamiento y Combinación por Año (Adicciones ↔ Violencia)
Esta fase limpia y normaliza los datos cargados en PostgreSQL, elimina outliers y genera un dataset combinado por año listo para análisis avanzado.
Ejecución
- Ajusta la conexión en el script si es necesario (host/puerto/DB).
- Ejecuta el procesador:
python3 process.py
Descripción Técnica
- Lectura de tablas desde PostgreSQL.
- Normalización de columnas (incluye mapeo de `año` desde alias como `a_o`, `anio`, etc.).
- Limpieza de valores vacíos y eliminación de outliers (IQR).
- Resumen estadístico por dataset (solo variables numéricas).
- Merge por `año` para generar un dataset ancho (outer join).
- Salidas en CSV para su uso en Fase 3.
Requisitos
Archivo `requirements.txt`:
pandas
sqlalchemy
psycopg2-binary
numpy
Instalación rápida:
pip install -r requirements.txt
Salida
resumen_estadistico_por_dataset.csv— Descriptivos numéricos por tabla.dataset_combinado_por_año.csv— Dataset ancho fusionado por año (limpio y sin outliers).
Esta fase deja los datos listos para el análisis estadístico extensivo de la Fase 3.