diqueran/Code-Sprint

Fork 0

Código utilizado durante nuestro Sprint del proyecto "Adicciones y Violencia" para la asignatura Gestión de Proyectos en Ciencia de Datos. Integrantes del grupo: Dioni Antón y Hugo Barba.

Go to file

diqueran 5aa5a07969 Eliminar salidas/reporte_estadistico.html		2025-10-28 15:52:05 +01:00
Estadistica-3	Scripts Estadísticos	2025-10-28 15:48:51 +01:00
Obtener-Datos-1	Eliminar Obtener-Datos-1/main.py	2025-10-28 15:42:34 +01:00
Procesamiento-Datos-2	Subida de Archivos de Procesamiento de Datos	2025-10-28 15:44:27 +01:00
.env	Archivos de configuración inicial e instrucciones	2025-10-28 15:40:05 +01:00
dataset-list.txt	Lista Datasets Iniciales	2025-10-22 17:09:56 +02:00
LICENSE	Initial commit	2025-10-22 16:45:57 +02:00
README.md	Archivos de configuración inicial e instrucciones	2025-10-28 15:40:05 +01:00

README.md

Análisis Estadístico — Adicciones y Violencia

Este conjunto de scripts implementa un flujo completo de procesamiento, limpieza y análisis estadístico sobre datos relacionados con el juego, las adicciones y la violencia en España.

Estructura General

Cada fase automatiza una parte del flujo de datos:

Fase 1 — Ingesta de datos
Importa archivos CSV en PostgreSQL, detectando automáticamente codificación, delimitador y estructura.
Crea tablas limpias y genera un archivo con la información de columnas (columnas_info.json).
Fase 2 — Procesamiento y combinación
Limpia las tablas importadas, normaliza columnas de año, elimina valores atípicos y genera un dataset combinado por año (dataset_combinado_por_año.csv).
Fase 3 — Análisis estadístico
Aplica modelos estadísticos avanzados (OLS, WLS, PCA, RLM), genera correlaciones, gráficos y un reporte HTML profesional con conclusiones generadas por GPT-4o.

Tecnologías y Librerías Utilizadas

Python 3.12+
PostgreSQL 15
pandas — manipulación y limpieza de datos
numpy — cálculo numérico
sqlalchemy — conexión ORM con PostgreSQL
psycopg2-binary — driver PostgreSQL
chardet — detección de codificación
statsmodels — modelos estadísticos (OLS, WLS, RLM)
scikit-learn — escalado, PCA, features polinómicos
matplotlib — visualización y gráficos
openai — generación automática de conclusiones

Flujo de Ejecución

# Fase 1 — Importar datos
python3 importador.py

# Fase 2 — Procesar y combinar por año
python3 process.py

# Fase 3 — Análisis estadístico y generación del reporte HTML
python3 analisis.py

Resultados

Tablas limpias en PostgreSQL (adicciones)
Datasets combinados y normalizados en CSV
Reporte completo con gráficos, correlaciones y conclusiones: salidas/reporte_estadistico.html

El código demuestra cómo crear un pipeline estadístico reproducible con análisis multivariable y conclusiones generadas mediante IA (GPT-4o) sobre datos reales.