CoronaHack: propuestas, modelos y alertas sobre la calidad de los datos del Covid-19

OBSERVACIONES. Los equipos alertaron incongruencias y ausencia de información en los datos liberados del Covid-19.

Imagen: Zoom

Con los datos de información pública sucede como en la gastronomía: "Puedes tener el mejor chef y la mejor cocina, pero si no tienes ingredientes de calidad, la comida va a salir mal", explicó con necesaria pertinencia la investigadora, estadística y analista Malena Maguina, durante el CoronaHack, la hackatón virtual organizada por OjoPúblico el fin de semana para analizar los datos del Covid-19 liberados por el Ministerio de Salud el pasado jueves 21 de mayo.

La comparación de la experta aludía a una de las principales conclusiones de la jornada que reunió a estadísticos, científicos, ingenieros, programadores, médicos epidemiólogos y expertos en salud pública: la necesidad de exigir una mejor calidad de información.

El evento -que reunió a participantes de 10 regiones del Perú, y especialistas radicados en Ecuador, Colombia, Estados Unidos, Canadá, Holanda y España) tuvo el apoyo de un amplio panel de expertos, y convocó en menos de un día a 369 inscritos a profesionales, especialistas y estudiantes, quienes durante más de 10 horas continuas, intercambiaron inquietudes y conocimientos para desarrollar proyectos de análisis e investigación teniendo como partida varias bases de datos de la Plataforma Nacional de Datos Abiertos y de otros sistemas de información pública.

La jornada tuvo como objetivo analizar la calidad de los datos liberados por el gobierno, promover la participación activa y multidisciplinaria y generar evidencia para encontrar nuevas luces sobre el impacto de la pandemia. Uno de los mayores aportes del evento fue la implementación de un repositorio público en Github con toda la información sistematizada y trabajada por los diferentes grupos: https://github.com/Coronahack-peru/

La hackatón reunió a participantes de 10 regiones del Perú, y especialistas radicados en Ecuador, Colombia, Estados Unidos, Canadá, Holanda y España.

Los participantes se organizaron en ocho grupos de análisis, modelos y desarrollo, bajo la guía de un importante grupo de expertos: José Incio, politólogo y candidato a doctor en Ciencia Política por la Universidad de Pittsburgh; Hugo Ñopo, matemático, economista e investigador principal en GRADE; Francisco Rodríguez, físico y desarrollador en Wolfram Alpha; Malena Maguina, estadística y científica de datos; Gabriel Carrasco, biólogo y epidemiólogo; Isaac Alva, médico experto en salud pública en la Amazonía y Walter Curioso, médico y doctor en Informática Biomédica.

El equipo promotor estuvo integrado también por Antonio Cucho, programador y desarrollador web en el Consorcio Internacional de Periodistas de Investigación (ICIJ, por sus siglas en inglés); Carlos Salvatierra, ingeniero electrónico y programador; Nelly Luna Amancio, periodista de investigación y editora general de OjoPúblico y Jimena Sánchez, abogada y especialista en gobierno abierto e innovación pública.

Los integrantes de los equipos trabajaron de manera paralela, en ocho salas vía la plataforma de jitsi. Al final del evento, los coordinadores presentaron los proyectos, sistematizaron desafíos y compartieron los hallazgos preliminares. Al mismo tiempo el panel de expertos exponía sus dudas y comentarios.

1. Profundizar en los datos: fallecidos y subregistro

A partir de las bases de datos contempladas en el Sistema Informático Nacional de Defunciones (Sinadef), el Ministerio de Salud (Minsa) y del Instituto Nacional de Estadística e Informática (Inei), este grupo de la hackatón reunió, sistematizó estadísticas y proyectó los excesos de muerte por regiones en relación al número de fallecidos por coronavirus en el Perú.

Como primer paso, la estadística Carmen Domínguez, excluyó la data de muertes violentas de los años analizados (2017-2020). Luego, realizó proyecciones de fallecimientos en condiciones de normalidad, y después comparó estas cifras con el número de fallecidos por Covid-19.

Subregistro

Elaboración: Carmen Domínguez

Así, logró hallar posibles distorsiones entre datos estimados y reales, principalmente en las regiones de Lima, Callao, Ucayali y Loreto. Durante el trabajo, también se identificó a regiones con un número menor de defunciones en este período. El investigador Hugo Ñopo, consideró “interesante el hallazgo regiones con un “exceso negativo de muertos”. El equipo coordinado por Domínguez explicó que habían los la información de estas bases de datos presentaba inconsistencias y que por ello era necesario analizar y validar con más tiempo esos datos.

El grupo se planteó aplicar el modelo a nivel provincial y distrital, sin embargo, no fue posible debido a que, según explicaron los participantes, en la base de datos proporcionados por el Minsa, entre un 20% y 25% de registros no cuenta con esta información. “El paso que sigue es analizar por distritos y ver con más finura qué es lo que está ocurriendo”, finalizó Carmen Domínguez.

2. Corona-Zona: un framework de servicio

Bajo la guía del programador Antonio Cucho, el equipo diseñó y desarrolló el framework de visualización denominado “Corona-Zona: Situación del Covid-19 en mi distrito y barrio”, una herramienta interactiva y amigable, a través de la cual los usuarios podrían acceder a información personalizada sobre las probabilidades de contagio de Covid-19, según sus distritos.

Para su desarrollo, los participantes recurrieron a los datos sobre fallecidos, casos positivos de coronavirus y registros del INEI. Utilizaron el lenguaje Python para el desarrollo.

“Pensamos el caso de un padre de familia que debe realizar compras y debe decidir a qué mercados acudir. La persona va a querer saber cuál es la probabilidad de contagio en estos sitios. Esta herramienta podría ayudar a las personas a tomar precauciones”, explicó Franco Calle, uno de los participantes, sobre el aplicativo Corona-Zona.

En la herramienta también está disponible la visualización de número de infectados y muertes per cápita, la tasa de letalidad y su variación de acuerdo a grupo etario.

Uno de los desafíos al desarrollar este proyecto fue la limpieza de datos, pues muchos registros contenían valores repetidos. Por ello, Walter Curioso, médico y doctor en Informática Biomédica recomendó a los encargados de la Plataforma de Datos Abiertos, priorizar el proceso para mejorar la calidad de los datos antes de compartirlos en el repositorio.

“Es fundamental la vigilancia de la calidad de las bases de datos.La secretaria de gobierno digital de la Presidencia del Consejo de Ministros juega un rol fundamental. Su labor no debe ser solo de “alojar” los datos de diferentes instituciones sino de monitorear y coordinar con instituciones cuando se identifiquen estas inconsistencias o datos incompletos”, precisó el médico experto en análisis de datos.

3. Los riesgosos: modelar el contagio

El equipo se planteó desarrollar un ranking de distritos con mayor riesgo de contagio de Covid-19. Para esto, establecieron una serie de variables relacionadas y propusieron una división de la data nacional, según proximidad de regiones.

Como variables de interés con información disponible se identificó: acceso a servicios (agua potable, internet), índice de migración, horas de toque de queda, población y edad poblacional, entre otras. “Hay otras variables interesantes, como acceso a tipo de pruebas, número de centros de abastos, acceso a vías principales, y otras más, que quedaron pendientes porque no tuvimos el acceso a esta información”, puntualizó Diana Coronada, una de las integrantes del grupo que se autodenominó “Los Riesgosos”.

El grupo determinó que la variable a predecir sería la tasa de crecimiento de contagiados (cuantitativa). Después, consolidó la data disponible y determinó un modelo predictivo, con el objetivo de lograr a futuro una aplicación más integral.

De manera preliminar, los participantes identificaron que el nivel de interconectividad entre regiones puede influir en el número de contagios.

“Hemos dividido al país por ejes: norte, oriente, centro sur y centro norte, y sur. Eso podría ser extrapolado para que se puedan tomar ciertas medidas de gobierno, pues son los ejes con mayor dinamismo en el contagio debido a su interacción”, agregó la epidemióloga, Claudia Arévalo, integrante del equipo.

Como parte del análisis del trabajo realizado, la especialista y estadística Malena Maguina, sostuvo que “el gobierno debería proveer un diccionario de datos con cada tabla, indicando qué significa cada campo y sus valores. Además, debería indicar cuáles son las llaves de cada una. A partir de ahí se podría hacer una evaluación de la calidad de datos más precisa. Por otro lado, se debe garantizar que el método para anonimizar las información sea único entre todas las tablas. Sin llaves y diccionario de datos yo estaría haciendo supuestos que podrían llevarme a error. Y lo mismo sin el método único para anonimizar”.

El equipo estuvo coordinado por Marcos Espinel, Evelyn Mesclier, Johan Llamoza, Alexandra, Jesús Ramírez, Daniel Pajita, Miguel Bedia, Claudia Arévalo Nieto, Jonathan Diaz, Diana Coronado Fiestas y Micaela de la Puente.

Riesgo 1

Riesgo 2

riesgo 3

riesgo 4

Elaboración del mapa: Johan Llamoza

4. Los soñadores: el catálogo de los deseos

Este equipo multidisciplinario, conformado por profesionales de Lima, provincias y del extranjero, construyó un catálogo ideal de bases de datos abiertos que se necesitaría para analizar el avance e impacto de la pandemia. “Sería interesante que el Ministerio de Salud y otras entidades brinden estos datos”, resaltó la abogada Jimena Sánchez, mentora del grupo.

Los temas observados se clasificaron en: medicamentos y otras compras públicas; entrega de bonos solidarios; niños, niñas y adolescentes en situación de vulnerabilidad; riesgo de contagio, violencia de género y violencia familiar.

“Los datos abiertos sirven para obtener información y conocimientos para la toma de decisiones. Es muy importante que los datos que se encuentran publicados en los diferentes portales también estén actualizados, de tal manera podamos realizar decisiones más efectivas. También para alertar sobre actos de corrupción”, explicó Mauro Valencia, integrante del equipo, quien también propuso que el Ministerio de Economía y Finanzas, considere incentivos para la actualización de la información.

Al respecto, Hugo Ñopo agregó que “tan importante como transparentar la data es brindarla de una manera organizada, así puede ser mejor aprovechada por los ciudadanos”.

Pueden revisar el catálogo trabajado por el equipo aquí.

El grupo estuvo coordinado por: Ronald Brandon Romero, Juan Takehara, Leyda Carol Flores, Maritza Sáenz Crisostomo, Sergio Juan Castro Manrique, Alexandra Urquiaga y Mauro Valencia Cruzado.

5. Los héroes de los datos

Para solucionar los obstáculos que presentaron todos los equipos en la calidad de la información que había sido liberada, este grupo planteó y desarrolló soluciones para obtener datos limpios y adecuadamente estructurados.

A través de la ejecución de scripts, los participantes sistematizaron y ordenaron la información disponible, con el objetivo de presentar una data en formato simple, con codificación y fechas estándar.

Así mismo, sistematizaron la información y las bases de datos en el repositorio creado para la hackatón, incluyendo ubigeo, considerando registros de Inei, Reniec, y Sunat, junto a data de población, latitud, longitud y superficie. El repositorio de datos fue compartido y ahora es de libre acceso en: github.com/Coronahack-peru

6. Los fregados: incongruencias en los datos

Este equipo se propuso identificar inconsistencias entre los diferentes sistemas de información brindados por instituciones públicas. “La idea del grupo es ‘fregar’ pero no para molestar, sino para alertar las imprecisiones y problemas con los datos. Si logramos identificar los datos defectuosos, el Gobierno puede destinar recursos a su mejora”, explicó José Incio, politólogo y coordinador del grupo.

Durante la jornada, se analizó la data de fallecidos del Sinadef y del Minsa, y se hallaron errores en el recojo de información, que generaron valores incompletos, datos duplicados, fechas inválidas (de nacimiento) y formatos incompatibles en una misma variable.

Así mismo, se identificó que la data del Sinadef, al no ser creada como una base de datos, sino como un registro administrativo, excluye variables que son de utilidad para la toma de decisiones. “Un ejemplo de ello es que este solo registra el domicilio de la persona, pero no el lugar donde ocurrió el deceso. Tal omisión genera que en el registro de fallecidos no nos permita conocer las regiones donde fallecieron realmentes estas personas”, precisaron los participantes.

El grupo propuso modificar las variables del Sinadef, automatizar el llenado de información para reducir el error y tener data a tiempo real, y capacitar a los funcionarios encargados para que la recolección de información mejore.

Finalmente, el equipo anunció que viene trabajando en una metodología que cruza la información de ambas bases de datos, para identificar las regiones donde el registro es más estable y proporcionar medidas de política pública para mejorar los registros. “Esto debe derivar en documentos de gestión, que apunten y den soluciones concretas (…) Es importante contrastar esta información con data cualitativa”, agregó Jair Alva, participante.

7. Robin Hood: recolección de datos y fake news

El equipo recopiló información y construyó un registro de datos confiables sobre Covid-19, relacionados a equipos de protección, medicamentos y vacunas, tomando como referencia portales de noticias nacionales e internacionales.

Así mismo, elaboraron listas de información falsa sobre el empleo de fármacos como hidroxicloroquina e ivermectina. Para ello, recurrieron a información científica disponible en línea.

Esto permitió elaborar una línea de tiempo de la desinformación y determinar una relación de causalidad entre las noticias falsas y el desabastecimiento de medicamentos e incremento de precios.

Sobre la iniciativa, José Incio comentó “estas líneas temporales son importantes ya que nos permiten encontrar patrones o generan hipótesis. Por otro lado, si logramos entender mejor los ciclos de las noticias falsas es posible combatirlas de manera más efectiva”.

El grupo estuvo coordinado por: Guadalupe Guzmán, Rodrigo Parra, Mario Zuleta y el equipo de VERIFICA, de Ecuador.

ivermectina

8. Pueblos Indígenas y Covid-19

El grupo planteó analizar la data disponible sobre Covid-19 en poblaciones y comunidades indígenas, sin embargo, un importante obstáculo fue la falta de información. “No existen datos desagregados por pueblos indígenas en la data liberada”, sostuvo Harold Moreno Luna, integrante del equipo.

Durante la jornada, los participantes también tuvieron otro desafío: los protocolos implementados no tomaron en cuenta criterios como la autoidentificación étnica en los registros epidemiológicos.

A pesar de las limitaciones, se identificó una elevada tasa de mortalidad en regiones y provincias con presencia de población indígena, como Ucayali, y se alertó sobre la existencia de un subregistro de casos confirmados y fallecimientos.

En ese sentido, los participaron recomendaron que para poder implementar mejor una estrategia de atención sanitaria con estas poblaciones, el Ministerio de Salud debería de construir una base de datos con información que considere factores como origen étnico, provincias con mayores casos, edad de las personas con Covid-19 en las poblaciones indígenas, entre otros.

“Si las entidades públicas contarán con esta información podría implementarse estrategias más efectivas, conocer la cantidad de casos de fallecidos y personas con Covid-19 y tener un registro oficial que considere a este sector de peruanos”, concluyó el equipo. En este documento pueden acceder a la estimación de subregistro en Ucayali.

El grupo estuvo coordinado por Harold Moreno (periodista), Milenka Valencia (antropóloga), Jerico Fiestas Flores (economista), Gustavo Callapiña (periodista) e Isaac Alva (médico).

Claudia Chávez Amaya @ClaudiaChavez_ claudia@ojo-publico.com