| Estadistica-3 | ||
| Obtener-Datos-1 | ||
| Procesamiento-Datos-2 | ||
| .env | ||
| dataset-list.txt | ||
| LICENSE | ||
| README.md | ||
Análisis Estadístico — Adicciones y Violencia
Este conjunto de scripts implementa un flujo completo de procesamiento, limpieza y análisis estadístico sobre datos relacionados con el juego, las adicciones y la violencia en España.
Estructura General
Cada fase automatiza una parte del flujo de datos:
-
Fase 1 — Ingesta de datos
Importa archivos CSV en PostgreSQL, detectando automáticamente codificación, delimitador y estructura.
Crea tablas limpias y genera un archivo con la información de columnas (columnas_info.json). -
Fase 2 — Procesamiento y combinación
Limpia las tablas importadas, normaliza columnas de año, elimina valores atípicos y genera un dataset combinado por año (dataset_combinado_por_año.csv). -
Fase 3 — Análisis estadístico
Aplica modelos estadísticos avanzados (OLS, WLS, PCA, RLM), genera correlaciones, gráficos y un reporte HTML profesional con conclusiones generadas por GPT-4o.
Tecnologías y Librerías Utilizadas
Python 3.12+
PostgreSQL 15
pandas — manipulación y limpieza de datos
numpy — cálculo numérico
sqlalchemy — conexión ORM con PostgreSQL
psycopg2-binary — driver PostgreSQL
chardet — detección de codificación
statsmodels — modelos estadísticos (OLS, WLS, RLM)
scikit-learn — escalado, PCA, features polinómicos
matplotlib — visualización y gráficos
openai — generación automática de conclusiones
Flujo de Ejecución
# Fase 1 — Importar datos
python3 importador.py
# Fase 2 — Procesar y combinar por año
python3 process.py
# Fase 3 — Análisis estadístico y generación del reporte HTML
python3 analisis.py
Resultados
- Tablas limpias en PostgreSQL (
adicciones) - Datasets combinados y normalizados en CSV
- Reporte completo con gráficos, correlaciones y conclusiones:
salidas/reporte_estadistico.html
El código demuestra cómo crear un pipeline estadístico reproducible con análisis multivariable y conclusiones generadas mediante IA (GPT-4o) sobre datos reales.