Archivos de configuración inicial e instrucciones
Subida de archivos README.md principal y .env para configuración de la key de openai para procesamiento final.
This commit is contained in:
parent
2bbd445ca1
commit
6ef0203a7d
66
README.md
66
README.md
@ -1,3 +1,65 @@
|
|||||||
# Code-Sprint
|
# Análisis Estadístico — Adicciones y Violencia
|
||||||
|
|
||||||
Código utilizado durante nuestro Sprint del proyecto "Adicciones y Violencia" para la asignatura Gestión de Proyectos en Ciencia de Datos. Integrantes del grupo: Dioni Antón y Hugo Barba.
|
Este conjunto de scripts implementa un flujo completo de procesamiento, limpieza y análisis estadístico sobre datos relacionados con el juego, las adicciones y la violencia en España.
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## Estructura General
|
||||||
|
|
||||||
|
Cada fase automatiza una parte del flujo de datos:
|
||||||
|
|
||||||
|
- **Fase 1 — Ingesta de datos**
|
||||||
|
Importa archivos CSV en PostgreSQL, detectando automáticamente codificación, delimitador y estructura.
|
||||||
|
Crea tablas limpias y genera un archivo con la información de columnas (`columnas_info.json`).
|
||||||
|
|
||||||
|
- **Fase 2 — Procesamiento y combinación**
|
||||||
|
Limpia las tablas importadas, normaliza columnas de año, elimina valores atípicos y genera un dataset combinado por año (`dataset_combinado_por_año.csv`).
|
||||||
|
|
||||||
|
- **Fase 3 — Análisis estadístico**
|
||||||
|
Aplica modelos estadísticos avanzados (OLS, WLS, PCA, RLM), genera correlaciones, gráficos y un reporte HTML profesional con conclusiones generadas por GPT-4o.
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## Tecnologías y Librerías Utilizadas
|
||||||
|
|
||||||
|
```txt
|
||||||
|
Python 3.12+
|
||||||
|
PostgreSQL 15
|
||||||
|
pandas — manipulación y limpieza de datos
|
||||||
|
numpy — cálculo numérico
|
||||||
|
sqlalchemy — conexión ORM con PostgreSQL
|
||||||
|
psycopg2-binary — driver PostgreSQL
|
||||||
|
chardet — detección de codificación
|
||||||
|
statsmodels — modelos estadísticos (OLS, WLS, RLM)
|
||||||
|
scikit-learn — escalado, PCA, features polinómicos
|
||||||
|
matplotlib — visualización y gráficos
|
||||||
|
openai — generación automática de conclusiones
|
||||||
|
```
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## Flujo de Ejecución
|
||||||
|
|
||||||
|
```bash
|
||||||
|
# Fase 1 — Importar datos
|
||||||
|
python3 importador.py
|
||||||
|
|
||||||
|
# Fase 2 — Procesar y combinar por año
|
||||||
|
python3 process.py
|
||||||
|
|
||||||
|
# Fase 3 — Análisis estadístico y generación del reporte HTML
|
||||||
|
python3 analisis.py
|
||||||
|
```
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## Resultados
|
||||||
|
|
||||||
|
- Tablas limpias en PostgreSQL (`adicciones`)
|
||||||
|
- Datasets combinados y normalizados en CSV
|
||||||
|
- Reporte completo con gráficos, correlaciones y conclusiones:
|
||||||
|
`salidas/reporte_estadistico.html`
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
El código demuestra cómo crear un pipeline estadístico reproducible con análisis multivariable y conclusiones generadas mediante IA (GPT-4o) sobre datos reales.
|
||||||
|
|||||||
Loading…
Reference in New Issue
Block a user