From 6ef0203a7d1ea817c91e7d8a7e37d83610f3b655 Mon Sep 17 00:00:00 2001
From: diqueran <diqueran@gmail.com>
Date: Tue, 28 Oct 2025 15:40:05 +0100
Subject: [PATCH] =?UTF-8?q?Archivos=20de=20configuraci=C3=B3n=20inicial=20?=
 =?UTF-8?q?e=20instrucciones?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Subida de archivos README.md principal y .env para configuración de la key de openai para procesamiento final.
---
 .env      |  1 +
 README.md | 66 +++++++++++++++++++++++++++++++++++++++++++++++++++++--
 2 files changed, 65 insertions(+), 2 deletions(-)
 create mode 100644 .env

diff --git a/.env b/.env
new file mode 100644
index 0000000..36d272d
--- /dev/null
+++ b/.env
@@ -0,0 +1 @@
+OPENAI_API_KEY = ""
\ No newline at end of file
diff --git a/README.md b/README.md
index 0e485ab..ba1bc58 100644
--- a/README.md
+++ b/README.md
@@ -1,3 +1,65 @@
-# Code-Sprint
+# Análisis Estadístico — Adicciones y Violencia
 
-Código utilizado durante nuestro Sprint del proyecto "Adicciones y Violencia" para la asignatura Gestión de Proyectos en Ciencia de Datos. Integrantes del grupo: Dioni Antón y Hugo Barba.
\ No newline at end of file
+Este conjunto de scripts implementa un flujo completo de procesamiento, limpieza y análisis estadístico sobre datos relacionados con el juego, las adicciones y la violencia en España.
+
+---
+
+## Estructura General
+
+Cada fase automatiza una parte del flujo de datos:
+
+- **Fase 1 — Ingesta de datos**  
+  Importa archivos CSV en PostgreSQL, detectando automáticamente codificación, delimitador y estructura.  
+  Crea tablas limpias y genera un archivo con la información de columnas (`columnas_info.json`).
+
+- **Fase 2 — Procesamiento y combinación**  
+  Limpia las tablas importadas, normaliza columnas de año, elimina valores atípicos y genera un dataset combinado por año (`dataset_combinado_por_año.csv`).
+
+- **Fase 3 — Análisis estadístico**  
+  Aplica modelos estadísticos avanzados (OLS, WLS, PCA, RLM), genera correlaciones, gráficos y un reporte HTML profesional con conclusiones generadas por GPT-4o.
+
+---
+
+## Tecnologías y Librerías Utilizadas
+
+```txt
+Python 3.12+
+PostgreSQL 15
+pandas — manipulación y limpieza de datos
+numpy — cálculo numérico
+sqlalchemy — conexión ORM con PostgreSQL
+psycopg2-binary — driver PostgreSQL
+chardet — detección de codificación
+statsmodels — modelos estadísticos (OLS, WLS, RLM)
+scikit-learn — escalado, PCA, features polinómicos
+matplotlib — visualización y gráficos
+openai — generación automática de conclusiones
+```
+
+---
+
+## Flujo de Ejecución
+
+```bash
+# Fase 1 — Importar datos
+python3 importador.py
+
+# Fase 2 — Procesar y combinar por año
+python3 process.py
+
+# Fase 3 — Análisis estadístico y generación del reporte HTML
+python3 analisis.py
+```
+
+---
+
+## Resultados
+
+- Tablas limpias en PostgreSQL (`adicciones`)
+- Datasets combinados y normalizados en CSV
+- Reporte completo con gráficos, correlaciones y conclusiones:
+  `salidas/reporte_estadistico.html`
+
+---
+
+El código demuestra cómo crear un pipeline estadístico reproducible con análisis multivariable y conclusiones generadas mediante IA (GPT-4o) sobre datos reales.