1. Infraestructura
Oracle Cloud VPS
Instancia ARM64 Ubuntu 22.04 con 4 OCPU y 24GB RAM para procesamiento del corpus.
Caddy
Proxy inverso con HTTPS automático (Let's Encrypt) y compresión HTTP/3.
Docker
Aislamiento de servicios: OpenClaw, bases de datos y notebooks Jupyter.
Git + GitHub
Control de versiones del código, datos versionados con DVC.
2. Procesamiento de Texto
Tesseract OCR
Reconocimiento óptico de caracteres con modelo spa_old para español histórico.
spaCy
Tokenización, lematización y NER. Modelo es_core_news_lg fine-tuneado.
NLTK + Stanza
Herramientas complementarias para análisis morfosintáctico histórico.
Pandas
Manipulación y limpieza de datasets tabulares de metadatos.
3. Inteligencia Artificial
Transformers (Hugging Face)
Modelos BERT/RoBERTa para clasificación y NER. Fine-tuning con corpus propio.
scikit-learn
LDA, clustering, vectorización TF-IDF y validación cruzada.
Gensim
Modelado de tópicos LSI, LDA y word2vec para embeddings históricos.
OpenClaw
Orquestación de pipelines mediante lenguaje natural y vibe coding.
4. Visualización
Matplotlib + Seaborn
Gráficos para publicación académica. Estilo personalizado dark/sobrio.
Plotly + D3.js
Dashboards exploratorios: líneas de tiempo, redes, mapas de calor.
Gephi
Análisis y visualización de grafos de relaciones sociales.
Folium
Mapas interactivos con georreferenciación de eventos y actores.
5. Flujo de Trabajo
Todo el pipeline se ejecuta mediante notebooks Jupyter versionados en Git, orquestados con Make y documentados automáticamente. La reproducibilidad es requisito: cualquier investigador debe poder clonar el repo, ejecutar make all y obtener los mismos resultados.