Archivos de configuración inicial e instrucciones

Subida de archivos README.md principal y .env para configuración de la key de openai para procesamiento final.
2025-10-28 15:40:05 +01:00 · 2025-10-28 15:40:05 +01:00 · 6ef0203a7d
commit 6ef0203a7d
parent 2bbd445ca1
2 changed files with 65 additions and 2 deletions
--- a/.env
+++ b/.env
@ -0,0 +1 @@
 OPENAI_API_KEY = ""
--- a/README.md
+++ b/README.md
@ -1,3 +1,65 @@
-# Code-Sprint
+# Análisis Estadístico — Adicciones y Violencia
-Código utilizado durante nuestro Sprint del proyecto "Adicciones y Violencia" para la asignatura Gestión de Proyectos en Ciencia de Datos. Integrantes del grupo: Dioni Antón y Hugo Barba.
+Este conjunto de scripts implementa un flujo completo de procesamiento, limpieza y análisis estadístico sobre datos relacionados con el juego, las adicciones y la violencia en España.
 ---
 ## Estructura General
 Cada fase automatiza una parte del flujo de datos:
 - **Fase 1 — Ingesta de datos**  
  Importa archivos CSV en PostgreSQL, detectando automáticamente codificación, delimitador y estructura.  
  Crea tablas limpias y genera un archivo con la información de columnas (`columnas_info.json`).
 - **Fase 2 — Procesamiento y combinación**  
  Limpia las tablas importadas, normaliza columnas de año, elimina valores atípicos y genera un dataset combinado por año (`dataset_combinado_por_año.csv`).
 - **Fase 3 — Análisis estadístico**  
  Aplica modelos estadísticos avanzados (OLS, WLS, PCA, RLM), genera correlaciones, gráficos y un reporte HTML profesional con conclusiones generadas por GPT-4o.
 ---
 ## Tecnologías y Librerías Utilizadas
 ```txt
 Python 3.12+
 PostgreSQL 15
 pandas — manipulación y limpieza de datos
 numpy — cálculo numérico
 sqlalchemy — conexión ORM con PostgreSQL
 psycopg2-binary — driver PostgreSQL
 chardet — detección de codificación
 statsmodels — modelos estadísticos (OLS, WLS, RLM)
 scikit-learn — escalado, PCA, features polinómicos
 matplotlib — visualización y gráficos
 openai — generación automática de conclusiones
 ```
 ---
 ## Flujo de Ejecución
 ```bash
 # Fase 1 — Importar datos
 python3 importador.py
 # Fase 2 — Procesar y combinar por año
 python3 process.py
 # Fase 3 — Análisis estadístico y generación del reporte HTML
 python3 analisis.py
 ```
 ---
 ## Resultados
 - Tablas limpias en PostgreSQL (`adicciones`)
 - Datasets combinados y normalizados en CSV
 - Reporte completo con gráficos, correlaciones y conclusiones:
  `salidas/reporte_estadistico.html`
 ---
 El código demuestra cómo crear un pipeline estadístico reproducible con análisis multivariable y conclusiones generadas mediante IA (GPT-4o) sobre datos reales.