Archivos de configuración inicial e instrucciones

Subida de archivos README.md principal y .env para configuración de la key de openai para procesamiento final.
2025-10-28 15:40:05 +01:00 · 2025-10-28 15:40:05 +01:00 · 6ef0203a7d
commit 6ef0203a7d
parent 2bbd445ca1
2 changed files with 65 additions and 2 deletions
--- a/.env
+++ b/.env
@ -0,0 +1 @@
+OPENAI_API_KEY = ""
--- a/README.md
+++ b/README.md
@ -1,3 +1,65 @@
-# Code-Sprint
+# Análisis Estadístico — Adicciones y Violencia

-Código utilizado durante nuestro Sprint del proyecto "Adicciones y Violencia" para la asignatura Gestión de Proyectos en Ciencia de Datos. Integrantes del grupo: Dioni Antón y Hugo Barba.
+Este conjunto de scripts implementa un flujo completo de procesamiento, limpieza y análisis estadístico sobre datos relacionados con el juego, las adicciones y la violencia en España.
+
+---
+
+## Estructura General
+
+Cada fase automatiza una parte del flujo de datos:
+
+- **Fase 1 — Ingesta de datos**  
+  Importa archivos CSV en PostgreSQL, detectando automáticamente codificación, delimitador y estructura.  
+  Crea tablas limpias y genera un archivo con la información de columnas (`columnas_info.json`).
+
+- **Fase 2 — Procesamiento y combinación**  
+  Limpia las tablas importadas, normaliza columnas de año, elimina valores atípicos y genera un dataset combinado por año (`dataset_combinado_por_año.csv`).
+
+- **Fase 3 — Análisis estadístico**  
+  Aplica modelos estadísticos avanzados (OLS, WLS, PCA, RLM), genera correlaciones, gráficos y un reporte HTML profesional con conclusiones generadas por GPT-4o.
+
+---
+
+## Tecnologías y Librerías Utilizadas
+
+```txt
+Python 3.12+
+PostgreSQL 15
+pandas — manipulación y limpieza de datos
+numpy — cálculo numérico
+sqlalchemy — conexión ORM con PostgreSQL
+psycopg2-binary — driver PostgreSQL
+chardet — detección de codificación
+statsmodels — modelos estadísticos (OLS, WLS, RLM)
+scikit-learn — escalado, PCA, features polinómicos
+matplotlib — visualización y gráficos
+openai — generación automática de conclusiones
+```
+
+---
+
+## Flujo de Ejecución
+
+```bash
+# Fase 1 — Importar datos
+python3 importador.py
+
+# Fase 2 — Procesar y combinar por año
+python3 process.py
+
+# Fase 3 — Análisis estadístico y generación del reporte HTML
+python3 analisis.py
+```
+
+---
+
+## Resultados
+
+- Tablas limpias en PostgreSQL (`adicciones`)
+- Datasets combinados y normalizados en CSV
+- Reporte completo con gráficos, correlaciones y conclusiones:
+  `salidas/reporte_estadistico.html`
+
+---
+
+El código demuestra cómo crear un pipeline estadístico reproducible con análisis multivariable y conclusiones generadas mediante IA (GPT-4o) sobre datos reales.