Code-Sprint/Procesamiento-Datos-2/README.md
diqueran 0b1fef90ae Subida de Archivos de Procesamiento de Datos
Aquí se encuentran todas las scripts usadas en la Fase 2 para procesar los datos.
2025-10-28 15:44:27 +01:00

1.2 KiB

Fase 2 — Procesamiento y Combinación por Año (Adicciones ↔ Violencia)

Esta fase limpia y normaliza los datos cargados en PostgreSQL, elimina outliers y genera un dataset combinado por año listo para análisis avanzado.


Ejecución

  1. Ajusta la conexión en el script si es necesario (host/puerto/DB).
  2. Ejecuta el procesador:
python3 process.py

Descripción Técnica

  • Lectura de tablas desde PostgreSQL.
  • Normalización de columnas (incluye mapeo de `año` desde alias como `a_o`, `anio`, etc.).
  • Limpieza de valores vacíos y eliminación de outliers (IQR).
  • Resumen estadístico por dataset (solo variables numéricas).
  • Merge por `año` para generar un dataset ancho (outer join).
  • Salidas en CSV para su uso en Fase 3.

Requisitos

Archivo `requirements.txt`:

pandas
sqlalchemy
psycopg2-binary
numpy

Instalación rápida:

pip install -r requirements.txt

Salida

  • resumen_estadistico_por_dataset.csv — Descriptivos numéricos por tabla.
  • dataset_combinado_por_año.csv — Dataset ancho fusionado por año (limpio y sin outliers).

Esta fase deja los datos listos para el análisis estadístico extensivo de la Fase 3.