History

diqueran a24ba9b4d1 Actualización de Fase 1 Se ha cambiado la base de datos a Postgres SQL, además se han realizado algunos cambios de lógica.		2025-10-28 15:41:24 +01:00
..
datasets	Datasets Utilizados	2025-10-27 13:35:26 +01:00
columnas_info.json	Actualización de Fase 1	2025-10-28 15:41:24 +01:00
compose.yaml	Actualización de Fase 1	2025-10-28 15:41:24 +01:00
importador.py	Actualización de Fase 1	2025-10-28 15:41:24 +01:00
main.py	Subida de archivos de extracción de datos inicial	2025-10-27 13:34:28 +01:00
README.md	Actualización de Fase 1	2025-10-28 15:41:24 +01:00
requirements.txt	Actualización de Fase 1	2025-10-28 15:41:24 +01:00

README.md

Fase 1 — Ingesta Automática de Datos (Adicciones ↔ Violencia)

Esta fase inicial prepara la base de datos PostgreSQL para el análisis posterior.
El script detecta automáticamente delimitadores, codificaciones y nombres de columnas,
creando tablas limpias e importando los datasets CSV del directorio datasets/.

Ejecución

Levanta el contenedor de PostgreSQL:

docker compose up -d

Ejecuta el importador de datos:

python3 importador.py

Descripción Técnica

Detecta codificación (UTF-8, Latin1, Windows-1252, etc.) con chardet.
Identifica el delimitador CSV (;, ,, |, \t).
Limpia nombres de columnas y crea las tablas en PostgreSQL 15.
Inserta automáticamente los registros de cada dataset.
Genera el archivo de metadatos columnas_info.json con las columnas detectadas.

Requisitos

Archivo requirements.txt:

pandas
psycopg2-binary
chardet

Instalación rápida:

pip install -r requirements.txt

Salida

Tablas generadas en la base de datos adicciones (puerto 5433).
Archivo columnas_info.json con las estructuras detectadas.

Esta fase deja lista la base de datos para las siguientes fases de procesamiento y análisis estadístico.