Usted está aquí: Inicio / 2014 / Agosto / Analizan 20 mil documentos de la dictadura

Analizan 20 mil documentos de la dictadura con un software desarrollado por expertos en computación

Con un programa de reconocimiento óptico de caracteres y autocorrección creado a medida, especialistas procesan un lote de registros conservados en el Archivo Provincial de la Memoria. La iniciativa, pionera en Argentina, apunta a extraer información de personas, lugares y fechas para facilitar su sistematización y el establecimiento de relaciones en la búsqueda de datos que permitan clarificar los delitos de lesa humanidad cometidos en los centros clandestinos de detención. Los resultados pueden aportar pruebas en los Juicios por la Verdad que se desarrollan en distintas provincias. [20.08.2014]

Acciones de Documento
Leandro Groshaus
Por Leandro Groshaus
Redacción UNCiencia
Prosecretaría de Comunicación Institucional
lgroshaus@comunicacion.unc.edu.ar

En Córdoba, el Archivo Provincial de la Memoria tiene en guarda aproximadamente cuatro millones de documentos vinculados a la actuación de fuerzas de seguridad y Grupos de Tareas del terrorismo de Estado durante el último gobierno de facto en el distrito provincial. De ese total, su área de Informática ya digitalizó –escaneó y guardó como imagen– 1,2 millones de registros.

El desafío es extraer, de todo ese material, información de personas, ubicaciones y fechas, e intentar establecer conexiones entre los datos para conocer la verdad sobre los delitos de lesa humanidad cometidos en los centros clandestinos de detención durante la última dictadura militar. Este tipo de información resulta de vital interés ya que pueden aportar pruebas en los juicios que se vienen desarrollando en distintas provincias de Argentina.

“En ese punto entramos nosotros”, comenta Paula Estrella, integrante del grupo de Procesamiento de Lenguaje Natural, de la Facultad de Matemática, Astronomía y Física -  Universidad Nacional de Córdoba. Ella dirige actualmente un equipo abocado a delinear una herramienta informática que procese toda esa documentación digitalizada. En esta primera etapa piloto, trabajan con un lote de 20 mil documentos.

La labor consiste en someter cada documento a un programa de reconocimiento óptico de caracteres (OCR) y autocorrección diseñado a medida. Así se genera una versión del documento con texto seleccionable, un requisito excluyente para poder efectuar búsquedas dentro de su contenido. Durante el proceso, el software analiza la diferencia entre las palabras reconstruidas a partir de la imagen y una base de datos personalizada del idioma –generada por el equipo de investigación– para realizar una corrección automática. 

Uno de los aspectos fundamentales de la iniciativa es la generación de diccionarios específicos para cada tipo de documentos, de manera que se puedan reconocer adecuadamente expresiones propias de actas, legajos, inventarios y otros tipos de documentos.

El proceso se completa con el reconocimiento de entidades nombradas, es decir, la identificación y clasificación de menciones a personas, organizaciones, lugares y fechas en textos de lenguaje natural.

La tarea no es fácil. “El estado de conservación y el género de los documentos es muy complejo: hay muchísimos nombres, modismos y alias que no necesariamente podemos diferenciar de cualquier otra palabra. A su vez, la gran variedad de información que se encuentra en los documentos –que pueden abarcar desde inventario de muebles o instrumentos de oficina hasta traslado de prisioneros o legajos de integrantes de fuerzas de seguridad–, complejiza el trabajo, ya que requiere de la confección de diccionarios específicos para cada lote de documentos”, explica Estrella.

Cabe destacar que parte del acervo fotográfico del Archivo Provincial de la Memoria, consiste en planos de cuerpo entero (frente y perfil) de personas detenidas, cada una de las cuales se encuentra identificada mediante un código numérico particular. En este contexto, el desafío es lograr que el software detecte y reconozca esta tipología de documentos, con el propósito de indexarlos correctamente.

A futuro, una segunda etapa implicará identificar conexiones entre los datos relevados, un paso que permitirá establecer, por ejemplo, los vínculos de distinto tipo entre personas, la pertenencia de un individuo a una organización o su presencia en determinado lugar. De esa forma será posible establecer relaciones y trayectorias: por ejemplo, tomar el número de legajo de un detenido y efectuar una búsqueda en todos los documentos y reconstruir a partir de los resultados una línea de tiempo.

Por el tipo de documentos con el que se trabaja, la labor tiene una complicación anexa: la imposibilidad de aplicar un proceso de corrección colaborativo. Esta modalidad consiste en poner el documento a disposición de una comunidad abierta, donde cada miembro puede hacer un aporte. No obstante, la sensibilidad de los datos con los que se trabaja impide que pueda aplicarse en este caso.

El reconocimiento óptico de caracteres (OCR) y el desarrollo del software de corrección automática de documentos es desarrollado por el estudiante Pablo Paliza, en el marco de su tesis de grado de la carrera de Licenciatura en Ciencias de la Computación, de la Facultad de Matemática, Astronomía y Física de la UNC.