diff --git a/.env b/.env new file mode 100644 index 0000000..36d272d --- /dev/null +++ b/.env @@ -0,0 +1 @@ +OPENAI_API_KEY = "" \ No newline at end of file diff --git a/README.md b/README.md index 0e485ab..ba1bc58 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,65 @@ -# Code-Sprint +# Análisis Estadístico — Adicciones y Violencia -Código utilizado durante nuestro Sprint del proyecto "Adicciones y Violencia" para la asignatura Gestión de Proyectos en Ciencia de Datos. Integrantes del grupo: Dioni Antón y Hugo Barba. \ No newline at end of file +Este conjunto de scripts implementa un flujo completo de procesamiento, limpieza y análisis estadístico sobre datos relacionados con el juego, las adicciones y la violencia en España. + +--- + +## Estructura General + +Cada fase automatiza una parte del flujo de datos: + +- **Fase 1 — Ingesta de datos** + Importa archivos CSV en PostgreSQL, detectando automáticamente codificación, delimitador y estructura. + Crea tablas limpias y genera un archivo con la información de columnas (`columnas_info.json`). + +- **Fase 2 — Procesamiento y combinación** + Limpia las tablas importadas, normaliza columnas de año, elimina valores atípicos y genera un dataset combinado por año (`dataset_combinado_por_año.csv`). + +- **Fase 3 — Análisis estadístico** + Aplica modelos estadísticos avanzados (OLS, WLS, PCA, RLM), genera correlaciones, gráficos y un reporte HTML profesional con conclusiones generadas por GPT-4o. + +--- + +## Tecnologías y Librerías Utilizadas + +```txt +Python 3.12+ +PostgreSQL 15 +pandas — manipulación y limpieza de datos +numpy — cálculo numérico +sqlalchemy — conexión ORM con PostgreSQL +psycopg2-binary — driver PostgreSQL +chardet — detección de codificación +statsmodels — modelos estadísticos (OLS, WLS, RLM) +scikit-learn — escalado, PCA, features polinómicos +matplotlib — visualización y gráficos +openai — generación automática de conclusiones +``` + +--- + +## Flujo de Ejecución + +```bash +# Fase 1 — Importar datos +python3 importador.py + +# Fase 2 — Procesar y combinar por año +python3 process.py + +# Fase 3 — Análisis estadístico y generación del reporte HTML +python3 analisis.py +``` + +--- + +## Resultados + +- Tablas limpias en PostgreSQL (`adicciones`) +- Datasets combinados y normalizados en CSV +- Reporte completo con gráficos, correlaciones y conclusiones: + `salidas/reporte_estadistico.html` + +--- + +El código demuestra cómo crear un pipeline estadístico reproducible con análisis multivariable y conclusiones generadas mediante IA (GPT-4o) sobre datos reales.