# Fase 2 — Procesamiento y Combinación por Año (Adicciones ↔ Violencia) Esta fase limpia y normaliza los datos cargados en PostgreSQL, elimina outliers y genera un **dataset combinado por año** listo para análisis avanzado. --- ## Ejecución 1) Ajusta la conexión en el script si es necesario (host/puerto/DB). 2) Ejecuta el procesador: ```bash python3 process.py ``` --- ## Descripción Técnica - Lectura de tablas desde **PostgreSQL**. - Normalización de columnas (incluye mapeo de \`año\` desde alias como \`a_o\`, \`anio\`, etc.). - Limpieza de valores vacíos y **eliminación de outliers (IQR)**. - **Resumen estadístico por dataset** (solo variables numéricas). - **Merge por \`año\`** para generar un dataset ancho (outer join). - Salidas en CSV para su uso en Fase 3. --- ## Requisitos Archivo \`requirements.txt\`: ```txt pandas sqlalchemy psycopg2-binary numpy ``` Instalación rápida: ```bash pip install -r requirements.txt ``` --- ## Salida - `resumen_estadistico_por_dataset.csv` — Descriptivos numéricos por tabla. - `dataset_combinado_por_año.csv` — Dataset ancho fusionado por año (limpio y sin outliers). *Esta fase deja los datos listos para el análisis estadístico extensivo de la Fase 3.*