1. INTRODUCCIÓN: DOCUMENTAR LOS RESULTADOS EN PÚBLICO
En el sector del desarrollo de software y la consultoría tecnológica existe la tendencia de no documentar los proyectos que no resultan seleccionados. Sin embargo, el crecimiento profesional y la mejora de los servicios requieren revisar de manera objetiva todas las propuestas.
Recientemente, presenté el proyecto "Algoritmos de la República" a la Beca de investigación de las colecciones de la Biblioteca Nacional de Colombia, del Ministerio de las Culturas, las Artes y los Saberes. La propuesta obtuvo un puntaje ponderado de 26,67, por lo cual no fue seleccionada para recibir el estímulo.
Este artículo es una revisión técnica y metodológica de dicho proceso. La evaluación realizada por los jurados evidenció una diferencia estructural entre el enfoque de la Ciencia de Datos (orientado a la eficiencia, frecuencia léxica y procesamiento de grandes volúmenes de información) y los métodos de las Ciencias Sociales (orientados al contexto, la interpretación y la especificidad). Analizar este resultado es el paso necesario para mejorar el desarrollo de nuestras soluciones tecnológicas.
2. LA ESTRUCTURA DEL PROYECTO
Para comprender la evaluación, es necesario detallar la estructura técnica de la propuesta. El proyecto se formuló en el área de Humanidades Digitales con las siguientes características:
- Objetivo: Procesar mediante código un siglo de historia política en Colombia (1890–1991), abarcando desde el periodo de la Regeneración hasta la Constitución de 1991.
- Corpus Documental: La colección digitalizada "Prensa Colombiana" del catálogo de la Biblioteca Nacional de Colombia (BNC).
- Herramientas Tecnológicas: Algoritmos de Procesamiento de Lenguaje Natural (NLP) estructurados en Python, herramientas de Reconocimiento Óptico de Caracteres (OCR) para la limpieza de los textos antiguos, y modelado de datos.
- Premisa: Rastrear cómo los conceptos de polarización, veeduría ciudadana, censura y democracia cambiaron semánticamente a lo largo de cien años en la prensa.
- Entregables: 1. Plataforma web interactiva (Scrollytelling). 2. Informe analítico final. 3. Repositorio de código abierto con los scripts de minería de texto.
El proyecto contó con el respaldo institucional de la Facultad de Ciencias Sociales y Educación de la Institución Universitaria Colegio Mayor de Antioquia y presentó un presupuesto estructurado de $21.800.000 COP, distribuido entre un líder tecnológico (CEO/programador), una líder de gestión y producción, un líder creativo para el desarrollo frontend, y los costos de infraestructura en la nube.
3. LA DIFERENCIA METODOLÓGICA: EL CÓDIGO Y EL CONTEXTO
El jurado emitió un concepto detallado que explica la falta de alineación del proyecto con los métodos tradicionales de las ciencias sociales y la historia.
Puntos validados por el jurado: El grupo evaluador reconoció la utilidad del núcleo técnico: "El proyecto presentado destaca por integrar el análisis crítico de las ciencias sociales con el uso de herramientas tecnológicas avanzadas... La prensa, en efecto, puede ser un buen espacio para iniciar estos ejercicios, en tanto permite un procesamiento de texto más rápido que los manuscritos y está sistematizada".
Causas de la no selección: El proyecto no fue aprobado debido a tres requerimientos metodológicos específicos de las ciencias sociales que no se cumplieron en la formulación:
Falta de delimitación temporal y temática:
- El concepto: "El proyecto requiere un mayor esfuerzo de delimitación... Procesar los datos de la prensa puede ser una herramienta útil, pero esa tarea debe enfocarse en un periodo, un tipo específico de publicación o con algún otro criterio formulado a partir de un problema o pregunta".
- El aprendizaje: Para el desarrollo de software, abarcar 100 años es un tema de capacidad de procesamiento computacional. Sin embargo, para la investigación histórica, una ventana de tiempo tan amplia, sin una pregunta de investigación muy acotada, impide realizar un análisis profundo de cada época.
Ausencia de contexto cualitativo:
- El concepto: "Para ser una contribución, debe haber un análisis profundo del contexto de producción de las fuentes y su contenido, pues las métricas o patrones léxicos no bastan para una reconstrucción histórica y pueden ser mal interpretados si se carece de otra información".
- El aprendizaje: Un algoritmo de NLP puede identificar que una palabra aumentó su frecuencia de uso, pero no puede interpretar por sí solo las condiciones políticas o sociales que causaron ese aumento. Las métricas cuantitativas no reemplazan la necesidad de una interpretación humana informada sobre el momento histórico.
Justificación del producto final:
- El concepto: "El producto de la propuesta no se detalla lo suficiente para entender su impacto académico o social".
- El aprendizaje: La creación de una plataforma web interactiva o un dashboard no se justifica únicamente por su atractivo visual o innovación tecnológica. Todo producto de este tipo debe explicar claramente cómo beneficia a los investigadores, a la academia o a los ciudadanos que lo utilizarán.
4. ACTUALIZACIÓN DE PROCESOS: MODELO DE CONVERGENCIA TECNO-SOCIAL
A partir de esta evaluación, he actualizado la metodología interna con la que estructuramos los proyectos de analítica y minería de datos institucionales. He documentado el Modelo de Convergencia Tecno-Social, el cual consta de tres lineamientos obligatorios para futuras propuestas:
- Delimitación estricta: La tecnología de Big Data se aplicará únicamente sobre problemas de investigación completamente acotados. Las propuestas se enfocarán en ventanas de tiempo más cortas y temas muy específicos para permitir profundidad investigativa.
- Integración cualitativa: Los patrones léxicos y gráficas generadas por el código se manejarán como el insumo inicial de trabajo. Es obligatorio incluir una fase posterior donde especialistas en el área respectiva (historiadores, sociólogos, comunicadores) validen e interpreten esos datos estadísticos junto con el contexto del momento.
- Indicadores de uso: El diseño de cualquier plataforma de software o interfaz web deberá incluir un sustento claro sobre su usabilidad, indicando cómo facilitará el acceso a la información y qué utilidad práctica ofrecerá a su público objetivo.
5. CONCLUSIÓN
La evaluación de la propuesta "Algoritmos de la República" demostró que una arquitectura de código eficiente no es suficiente para estudiar fenómenos sociales y humanos complejos. El desarrollo tecnológico aplicado a la información pública o histórica requiere integrarse armónicamente con los métodos cualitativos.
Aplicar estas mejoras metodológicas asegura que nuestros futuros desarrollos de Inteligencia Cívica y análisis de datos funcionen como herramientas que faciliten la investigación rigurosa, complementando la capacidad técnica del software con la interpretación humana y el respeto por el contexto de la información.
