From 6ef0203a7d1ea817c91e7d8a7e37d83610f3b655 Mon Sep 17 00:00:00 2001 From: diqueran Date: Tue, 28 Oct 2025 15:40:05 +0100 Subject: [PATCH] =?UTF-8?q?Archivos=20de=20configuraci=C3=B3n=20inicial=20?= =?UTF-8?q?e=20instrucciones?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Subida de archivos README.md principal y .env para configuración de la key de openai para procesamiento final. --- .env | 1 + README.md | 66 +++++++++++++++++++++++++++++++++++++++++++++++++++++-- 2 files changed, 65 insertions(+), 2 deletions(-) create mode 100644 .env diff --git a/.env b/.env new file mode 100644 index 0000000..36d272d --- /dev/null +++ b/.env @@ -0,0 +1 @@ +OPENAI_API_KEY = "" \ No newline at end of file diff --git a/README.md b/README.md index 0e485ab..ba1bc58 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,65 @@ -# Code-Sprint +# Análisis Estadístico — Adicciones y Violencia -Código utilizado durante nuestro Sprint del proyecto "Adicciones y Violencia" para la asignatura Gestión de Proyectos en Ciencia de Datos. Integrantes del grupo: Dioni Antón y Hugo Barba. \ No newline at end of file +Este conjunto de scripts implementa un flujo completo de procesamiento, limpieza y análisis estadístico sobre datos relacionados con el juego, las adicciones y la violencia en España. + +--- + +## Estructura General + +Cada fase automatiza una parte del flujo de datos: + +- **Fase 1 — Ingesta de datos** + Importa archivos CSV en PostgreSQL, detectando automáticamente codificación, delimitador y estructura. + Crea tablas limpias y genera un archivo con la información de columnas (`columnas_info.json`). + +- **Fase 2 — Procesamiento y combinación** + Limpia las tablas importadas, normaliza columnas de año, elimina valores atípicos y genera un dataset combinado por año (`dataset_combinado_por_año.csv`). + +- **Fase 3 — Análisis estadístico** + Aplica modelos estadísticos avanzados (OLS, WLS, PCA, RLM), genera correlaciones, gráficos y un reporte HTML profesional con conclusiones generadas por GPT-4o. + +--- + +## Tecnologías y Librerías Utilizadas + +```txt +Python 3.12+ +PostgreSQL 15 +pandas — manipulación y limpieza de datos +numpy — cálculo numérico +sqlalchemy — conexión ORM con PostgreSQL +psycopg2-binary — driver PostgreSQL +chardet — detección de codificación +statsmodels — modelos estadísticos (OLS, WLS, RLM) +scikit-learn — escalado, PCA, features polinómicos +matplotlib — visualización y gráficos +openai — generación automática de conclusiones +``` + +--- + +## Flujo de Ejecución + +```bash +# Fase 1 — Importar datos +python3 importador.py + +# Fase 2 — Procesar y combinar por año +python3 process.py + +# Fase 3 — Análisis estadístico y generación del reporte HTML +python3 analisis.py +``` + +--- + +## Resultados + +- Tablas limpias en PostgreSQL (`adicciones`) +- Datasets combinados y normalizados en CSV +- Reporte completo con gráficos, correlaciones y conclusiones: + `salidas/reporte_estadistico.html` + +--- + +El código demuestra cómo crear un pipeline estadístico reproducible con análisis multivariable y conclusiones generadas mediante IA (GPT-4o) sobre datos reales.