A mediados de enero de este año, ojeando la prensa, pudimos ver una noticia sorprendente en la que anunciaba la segunda muerte derivada de una enfermedad causada por un misterioso virus que había aparecido unas semanas antes en la ciudad china de Wuhan. Aparte del virus, que acababa de ser identificado y reconocido por la Organización Mundial de la Salud (OMS), lo más notable del artículo eran unos cálculos de epidemiólogos británicos del Imperial College de Londres que, basándose en sólo sesenta casos confirmados en China y las primeras apariciones en dos países vecinos, vaticinaban con un modelo matemático que algo grande estaba a punto de pasar.
Desde entonces, el Centro de Análisis de Enfermedades Infecciosas Globales del Imperial College, entidad a la que están afiliados estos expertos, ha aplicado una política de publicación inmediata de los trabajos científicos realizados en la lucha contra la pandemia. Casi en tiempo real y a través de un portal dedicado, todas las conclusiones de las investigaciones que se llevan a cabo son abiertas al público en general. Esto incluye: informes científicos, datos recabados o generados, algoritmos computacionales y código fuente con el que se realizan las estimaciones y cálculos de sus estudios. Entidades externas, como la OMS o gobiernos europeos, usan estas publicaciones y recursos como referencias en la planificación de la estrategia de mitigación del impacto de la pandemia.
Mapa de la OMS con los casos activos confirmados a nivel mundial
Open Science de verdad
Días después, ya cuando el coronavirus no era un completo desconocido, los expertos de la Universidad Johns Hopkins, y su Centro para la Ciencia de Sistemas e Ingeniería, crearon el que se ha considerado como el cuadro de mandos de referencia —aunque ahora existen otros como el de la OMS o el de la UE— para la visualización y evolución de la infecciones en tiempo real, con reportes sobre los afectados, defunciones y recuperaciones por cada uno de los países o regiones afectadas. Pero esta entidad no sólo ofrece este mapa para uso de la población, sino que todos los datos que compilan desde cientos de fuentes, mediante un proceso manual en la mayoría de los casos, lo ponen a disposición del público en general como datos abiertos. De hecho, en su repositorio de Github aparecen almacenados todos los datos históricos que han compilado, normalizado y distribuido en formato abierto (CSV), así como las capas geográficas que se representan en el mapa. De hecho, esta universidad sigue trabajando en crear nuevas visualizaciones, simulaciones y análisis de los datos, pero siempre abriendo la puerta a terceras partes a que colaboren y construyan sobre la base de conocimiento abierto que han montado.
La rápida actuación de los científicos chinos, en colaboración con la Universidad de Sydney, hizo posible el descifrado del genoma del coronavirus. Su apertura inmediata a la comunidad científica era un claro llamamiento a la colaboración entre los expertos. Los términos de uso de los datos del resultado del genoma completo comenzaban con “por favor, siéntase libre de descargar, compartir, usar y analizar estos datos [...]”.
Esto es, ciencia abierta en pura esencia.
Virólogos de todo el mundo pusieron los ojos sobre los datos, analizando las evoluciones moleculares, permitiendo hacer rápidos análisis filogenéticos de la muestra detallada y observar la semejanza con el SARS CoV, el virus responsable de la pandemia de SARS que azotó China en 2003.
En cuestión de horas, el desconocido ya tenía nombre (SARS-CoV-2)
Esta rápida respuesta de expertos y centros especializados, fue complementada con entidades tradicionalmente famosas por sus políticas aperturistas (de información). El Portal de Datos Europeo, dependiente de la Comisión Europea, comenzó a publicar los datos actualizados sobre la incidencia de la enfermedad a nivel europeo y mundial, con datos recopilados por el equipo del Centro Europeo para la Prevención y Control de Enfermedades, quienes recorren diariamente más de medio millar de fuentes, normalizando y actualizando los datos que se publican en formatos abiertos. Pero no sólo están disponibles datos sobre el propio virus y su evolución, sino también para combatirlo: listado de productos y activos desinfectantes, medidas tomadas en el ámbito del transporte marítimo en cada uno de los países miembros de la UE, u otra información relacionada con espacios aéreos o aeropuertos afectados.
Datos abiertos de verdad.
Problema global. Solución local
A día de hoy ya vivimos la crisis sanitaria en nuestras casas, y el problema global se ha vuelto local, afectándonos directamente. Con más tiempo disponible para pensar y actuar, los tecnólogos queremos aportar nuestro granito de arena, quizás no para buscar la solución final, sino para intentar minimizar los daños que se están produciendo. Vemos surgir proyectos open hardware para la fabricación de respiradores o iniciativas para fabricar pantallas protectoras para personal sanitario.
Nosotros que sabemos gestionar o manipular datos, nos gusta conocer y plasmar la realidad tal y como es. Representar qué es lo que está ocurriendo y modelar posibles futuros escenarios, en un corto o medio plazo, abstrayéndonos de cualquier sesgo sensacionalista o ideológico. Esto únicamente lo podemos hacer desde el plano neutral que nos ofrecen los datos en crudo.
Haciendo un rápido análisis del panorama de la información sobre la pandemia en España vemos que los héroes de los datos abiertos siguen siendo los de siempre, y vemos que hay interés en seguir con este paradigma de colaboración, transparencia y eficiencia. Para empezar, el protocolo de generación y captación de los datos es más o menos común en todo el Estado: diariamente los centros médicos reportan a sus gestores autonómicos las incidencias más relevantes, las comunidades autónomas compilan los datos y los trasladan al Centro Nacional de Epidemiología del Ministerio de Sanidad; conjuntamente con el Instituto de Salud Carlos III, los datos se homogeneizan y se visualizan en un cuadro de mandos. Los gráficos y cifras de la página web están complementados con los datos en crudo, que se pueden descargar desde un enlace. Aún así, la reutilización de los datos no es del todo sencilla.
Open Data, un quiero y no puedo
Durante el primer mes, los datos oficiales eran generados en un documento de Microsoft Word, convertido y publicado como PDF sin una plantilla homogénea, ya que la disposición de los datos en las tablas variaban constantemente. En la actualidad,los datos son servidos como una hoja de cálculo en formato abierto (CSV) con la serie histórica de evolución de la enfermedad por comunidad autónoma, lo que está casi bien.
Aunque el conjunto de datos principal está catalogado y descrito en el portal de datos abiertos estatal, datos.gob.es, seguimos encontrando problemas básicos en la reutilización. Para empezar, no sabemos cuándo se va a actualizar el fichero, ni cuando lo hizo. Inicialmente, con el PDF, hacíamos una estimación analizando los metadatos de generación del PDF. Ahora con un CSV (que es texto plano), no tenemos posibilidad de conocerlo, una vez nos hemos descargado el fichero. Estamos siguiendo un patrón aproximado en la frecuencia de actualización, ya que intuimos que suele subirse a eso de las 11:30 (hora de Madrid), lo que nos simplifica bastante la captación de los datos.
Analizando el conjunto de datos, nos encontramos con que los identificadores de las CC.AA. no se corresponden con los que estamos acostumbrados a usar (p.e., los que usa el INE). Esto es algo anecdótico, ya que es trivial y el esquema es fácil de intuir. Lo que sí es un problema es que dichos identificadores varían de vez en cuando (y no todos).
Extracto del CSV con el histórico de los casos de la COVID-19 en España
Otro de los retos, tampoco muy relevantes, pero que hay que tener en cuenta es que al final de los datos, se incluye una leyenda, la cual ha variado a lo largo del tiempo, pudiendo ocupar una sola entrada de los datos, o tres filas como lo hace en la actualidad. Para evitar problemas en el tratamiento automatizado, esto deber ser descartado.
A lo largo de estas semanas, una vez se comenzó a publicar en formato CSV, los scripts de extracción de los datos han tenido que ser modificados constantemente, ya que la estructura de las distribuciones de los datos han variado. Se han incluido y quitado variables, modificando la nomenclatura utilizada (variándola o incluso pasando a nombres en mayúsculas, minúsculas, o combinando ambos formatos entre las diferentes variables), y algún dato básico como las fechas, han visto variar su formato.
Todos estos contratiempos, aunque parezcan irrelevantes, son sorprendentes. Tras más de una década de open data y, en uno de los casos más paradigmáticos para su uso y aprovechamiento —nunca hubiéramos pensado un caso de uso tal como en el que nos encontramos—, fallamos en los aprendizajes básicos y los fundamentos del concepto de publicación de datos abiertos. Los proyectos basados en estos datos no tienen la posibilidad de automatización plena, ya que requiere un mantenimiento continuo del sistema de recolección debido a esos a cambios puntuales y, en muchas ocasiones, innecesarios.
Mis compañeros del equipo de Inteligencia Artificial y Big Data, son los que llevan peleándose varias semanas con estos datos, sus descargas y la normalización para poder alimentar sus scripts y aplicaciones, para hacer aplicaciones y visualizaciones como estas infografías. En este desarrollo, que aúna tecnologías de procesamiento del lenguaje natural y aprendizaje automático sobre las conversaciones en Twitter sobre la COVID-19, cada día tenemos que vigilar que que la actualización automática de los datos sea correcta y no es extraño recibir mensajes de satisfacción cuando funciona a la primera.
Infografía interactiva sobre los casos de COVID-19 en España (web)
Realmente los datos existen, y alguien los tiene en un formato que se podría reutilizar. Como muestra vemos a caras conocidas en el mundo del open data, esos héroes de los datos que mencionábamos: País Vasco, Castilla y León, Cataluña o Alcobendas.
Pero hay esperanza
Euskadi ofrece datos estadísticos muy completos con desglose a nivel local (por zonas sanitarias) y en varios formatos abiertos, entre los que incluye CSV y JSON. La Generalitat de Catalunya ha hecho lo propio y publica el desglose de los casos detectados en la región, disgregados por municipio y sexo, así como varias visualizaciones (propias y externas).
Aplicación STOP COVID19 para la visualización de los casos en Catalunya
La Junta de Castilla y León ofrece un completo espacio web, que representa información a nivel provincial y a nivel local (zonas sanitarias) de doce datasets relacionados en su portal de datos abiertos, incluyendo ocupación de centros sanitarios y estadísticas varias. También abren, al igual que los gobiernos vasco y catalán, los expedientes de regulación de empleo por situaciones provocadas por la alerta sanitaria. Asturias, después de unas semanas, también ha sacado su cuadro de mandos con datos descargables.
Panel de control del portal de la Junta de Castilla y León
Existen otros casos reseñables, como es el caso del Ayuntamiento de Alcobendas, cuya jurisdicción es limitada en cuestión de sanidad, pero publica datos relacionados con las infracciones por incumplimiento de las restricciones del estado de alarma. Aunque el conjunto de datos está anonimizado, incluye la geolocalización exacta de los hechos, el tipo de infracción, el género y la cuantía a abonar por el infractor (en GeoJSON y CSV).
En resumen, esta crisis sanitaria ha puesto a la ciencia abierta (open science) en el centro de la escena, demostrando toda su capacidad y permitiendo palpar sus beneficios. Los datos abiertos ya llevan unos años entre nosotros, y vemos un puñado de grandes iniciativas (más o menos los de siempre), pero seguimos experimentando los mismos huecos que al principio, y que son los que imposibilitan que todo fluya. No es un problema aislado, otras empresas se encuentran con el mismo reto de falta de homogeneización. Individuos y empresas de todo el mundo intentamos innovar en los ámbitos que manejamos, pero como siempre, un mínimo de calidad y homogeneización es necesaria para no tener que centrarnos en algo que debería estar resuelto desde el principio: formatos estándares —aunque sean de facto—, y estructuras homogéneas —aunque nos cueste entenderlas a la primera—.
Martín Álvarez Espinar
- Consultor Estándares Web y Responsable del W3C Chapter Hub Hispanohablante -