Herramientas y Tecnologías

Stack tecnológico para el procesamiento, análisis y visualización del corpus histórico

1. Infraestructura

Oracle Cloud VPS

Servidor

Instancia ARM64 Ubuntu 22.04 con 4 OCPU y 24GB RAM para procesamiento del corpus.

Caddy

Web Server

Proxy inverso con HTTPS automático (Let's Encrypt) y compresión HTTP/3.

Docker

Contenedores

Aislamiento de servicios: OpenClaw, bases de datos y notebooks Jupyter.

Git + GitHub

Versionado

Control de versiones del código, datos versionados con DVC.

2. Procesamiento de Texto

Tesseract OCR

OCR

Reconocimiento óptico de caracteres con modelo spa_old para español histórico.

spaCy

NLP

Tokenización, lematización y NER. Modelo es_core_news_lg fine-tuneado.

NLTK + Stanza

NLP

Herramientas complementarias para análisis morfosintáctico histórico.

Pandas

Datos

Manipulación y limpieza de datasets tabulares de metadatos.

3. Inteligencia Artificial

Transformers (Hugging Face)

LLM

Modelos BERT/RoBERTa para clasificación y NER. Fine-tuning con corpus propio.

scikit-learn

ML

LDA, clustering, vectorización TF-IDF y validación cruzada.

Gensim

Topic Modeling

Modelado de tópicos LSI, LDA y word2vec para embeddings históricos.

OpenClaw

Agente IA

Orquestación de pipelines mediante lenguaje natural y vibe coding.

4. Visualización

Matplotlib + Seaborn

Estática

Gráficos para publicación académica. Estilo personalizado dark/sobrio.

Plotly + D3.js

Interactiva

Dashboards exploratorios: líneas de tiempo, redes, mapas de calor.

Gephi

Redes

Análisis y visualización de grafos de relaciones sociales.

Folium

Mapas

Mapas interactivos con georreferenciación de eventos y actores.

5. Flujo de Trabajo

Todo el pipeline se ejecuta mediante notebooks Jupyter versionados en Git, orquestados con Make y documentados automáticamente. La reproducibilidad es requisito: cualquier investigador debe poder clonar el repo, ejecutar make all y obtener los mismos resultados.