1. Diseño Experimental
El proyecto adopta un diseño mixto secuencial: fase cuantitativa (procesamiento computacional del corpus) seguida de fase cualitativa (validación historiográfica de resultados). Esta estructura permite contrastar hallazgos algorítmicos con interpretación disciplinar.
La muestra se divide en tres cohortes temporales para controlar la variación diacrónica:
• Cohorte A (1880-1900): Consolidación del Estado liberal y expansión agroexportadora.
• Cohorte B (1900-1930): Movilización obrera, inmigración masiva, primeras leyes sociales.
• Cohorte C (1930-1950): Década infame, peronismo, industrialización temprana.
2. Fases del Procesamiento
Fase 1 — Digitalización y OCR
Los documentos físicos se digitalizan a 300 DPI. El OCR utiliza Tesseract 5.x con modelo entrenado específicamente para español de finales del siglo XIX, ajustado con corrección manual del 5% de la muestra para evaluar tasa de error.
Métrica de calidad: CER (Character Error Rate) < 3% y WER (Word Error Rate) < 8%.
Fase 2 — Normalización y Limpieza
El texto se normaliza manteniendo variantes relevantes: se conservan regionalismos, modismos históricos y grafías alternativas, pero se estandariza puntuación y se eliminan artefactos de digitalización.
Herramienta: Scripts Python con regex contextual + validación manual muestral.
Fase 3 — Anotación y NER
Reconocimiento de entidades nombradas (personas, lugares, organizaciones, fechas) usando spaCy con modelo transfer-learning desde español contemporáneo, fine-tuneado con 2.000 ejemplos anotados manualmente.
Validación: Precisión > 85%, recall > 80% en conjunto de test histórico.
Fase 4 — Modelado de Tópicos
LDA (Latent Dirichlet Allocation) con 20-50 tópicos, evaluados por coherencia semántica (C_v score). Se contrastan resultados con modelado supervisado (clasificación manual de 500 documentos).
Parámetros: alpha = 0.1, beta = 0.01, iteraciones = 1.000.
Fase 5 — Análisis de Redes
Construcción de redes de co-ocurrencia de entidades (personas-organizaciones, personas-lugares) y análisis de centralidad. Visualización interactiva con Gephi y D3.js.
3. Validación y Control de Sesgos
Cada resultado algorítmico pasa por revisión historiográfica: un equipo de tres investigadores evalúa si los patrones detectados tienen sentido contextual o son artefactos del modelo.
Los sesgos se documentan sistemáticamente: subrepresentación de voces femeninas, normalización de lenguaje no normativo, anacronismos en la categorización de eventos.