Si piensa que hay muchas noticias sobre la COVID-19 en los medios digitales y físicos de comunicación, tendría que darse una vuelta por los sitios que tienen estudios académicos sobre el tema de la pandemia, y que hasta hace una semana albergaban más de 4 000 artículos, cantidad que se duplica cada semana, lo que hace prácticamente imposible que la comunidad científica los evalúe y sancione adecuadamente.

Esta sobreproducción de documentos científicos representa un problema que pocas veces antes se había presentado: tener que evaluar la calidad de la información, su caducidad, acceso y limitaciones en un tiempo record y sin errores.

Otros grupos de investigadores, incluyendo el de la Casa Blanca en los Estados Unidos de Norteamérica, trabajan con empresas de tecnología, desarrolladores y editores de medios que utilizan distintos tipos de metodologías, como la minería de datos, para resolver problemas de taxonomía y colecciones de documentos gratuitos que se encuentran en la internet. Todos estos documentos representan soluciones para aplanar la curva, crear políticas de salud, establecer controles sanitarios y otros temas más, que pueden ser de utilidad para la toma de decisiones. Se estima que, desde enero del 2020 a la fecha, hay al menos 23 000 documentos, y que esta cifra se duplicará cada 20 días.

Otros criterios para categorizar las investigaciones ha sido la calidad de los mismos, lo que tampoco es una tarea fácil, ya que estas publicaciones aún no están sancionadas, y para que pueda hacerse rápidamente, se publican como un “refereed preprint”, lo que significa: “Antes de la publicación formal en una revista académica, los artículos científicos y médicos son tradicionalmente ´revisados por pares´. En este proceso, los editores de la revista toman el consejo de varios expertos, llamados “árbitros”, que han evaluado el documento y pueden identificar debilidades en sus supuestos, métodos y conclusiones. Por lo general, una revista solo publica un artículo, cuando los editores están convencidos de que los autores han abordado las preocupaciones de los árbitros”.

Por otra parte, la catalogación por calidad, ha puesto al descubierto que algunas publicaciones se han realizado bajo laxos estándares metodológicos, llegando a conclusiones sin originalidad ni relevancia. Este es el problema que tienen las publicaciones “preprint”, ya que por un lado se acelera la propagación de los documentos y sus contenidos antes de ser sancionados y oficialmente publicados, dando oportunidad a otros científicos para leerlos y comentarlos, lo que facilita su catalogación por relevancia. Por otro lado, no tan positivo, es que la relevancia del estudio se “viraliza”, como ocurre con las noticias en los medios.

Cuando una investigación carece de calidad, pero es citada por otros investigadores, el problema se multiplica, al generarse una nueva explosión de documentos que toman como referencia al primero, incrementando los problemas de arbitraje y sanción de los documentos. En este sentido, las redes sociales como Facebook, Twitter o LinkedIn son parte importante en la exposición de estos documentos.

Por su parte, la Casa Blanca de los Estados Unidos, a través de su Oficina de Política de Ciencia y Tecnología, trabaja con editores y firmas tecnológicas para lanzar el conjunto de datos CORD-19, considerado la colección individual más grande hasta la fecha, la que contiene más de 59 000 artículos publicados y pre impresiones, entre las que se incluyen estudios de coronavirus que datan de la década de 1950. Para crear el archivo, algunos de los grupos más grandes activos en temas de aprendizaje automático se pusieron a trabajar. Google, la Iniciativa Chan Zuckerberg y el Instituto Allen para IA, colaboraron con los Institutos Nacionales de Salud y otros grupos para identificar y recopilar los documentos, utilizando métodos que incluyen el procesamiento del lenguaje natural que va más allá de las palabras clave codificadas en documentos para variantes de términos de búsqueda y texto relacionado.

A pesar de que estos gigantes de la tecnología de información participen, aún hay dificultades en los procesos, entre los que podemos citar a modo de ejemplo: que más del 60% de los documentos en CORD-19 no mencionen los términos de búsqueda utilizados por los creadores de las colecciones, es decir, no etiquetan o usan “palabras clave” como «coronavirus» y «SARS-CoV» en sus documentos, títulos ni resúmenes, lo que significa que aunque estos artículos podrían estar relacionados tangencialmente con COVID-19, no se sabe del todo.

Entre los primeros trabajos de minería de datos se encuentra una “revisión de literatura basada en inteligencia artificial”. Utilizando algoritmos, los investigadores obtuvieron datos de interés de un subconjunto de 783 artículos en CORD-19 agrupados en 17 categorías, luego crearon una página web para cada tema que muestra los resultados. Por ejemplo, una página muestra datos de estudios sobre enfermedades cardíacas como factor de riesgo de muerte por COVID-19. Los usuarios pueden escanear una tabla que muestre el riesgo reportado por cada periodo como un cociente de probabilidades, y pueden hacer clic en el texto de cada periodo para obtener más información. Aunque hay avances, el trabajo está lejos de ser completamente automatizado. Los algoritmos no siempre extraen correctamente el punto de datos relevante para estas tablas, por lo que los estudiantes de medicina y otros voluntarios inactivos por la pandemia han estado verificando la exactitud de cada uno de los textos. Al momento la herramienta ha generado alrededor de 122 000 visitas desde su lanzamiento, el 10 de abril del 2020.

Antes no se sabía la relevancia de estos sistemas de información, ya que uno solamente se enteraba de los avances en publicaciones especializadas y conferencias anuales de medicina, lo que ahora pasa todos los días.

Por: Antonio Salgado Leiner, miembro del Comité Editorial de códigoF.

Fuentes

Science.
Scientists are drowning in COVID-19 papers. Can new tools keep them afloat?.

Semantic Scholar.
CORD-19.

bioRxiv.
What is an unrefereed preprint? 

Johns Hopkins | Bloomberg school of public health
2019 Novel Coronavirus Research Compendium (NCRC).

Kaggle.
COVID-19 Open Research Dataset Challenge (CORD-19) | An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House

SciSight.
SciSight is a tool for exploring the evolving network of science in the COVID-19 Open Research Dataset, from Semantic Scholar at the Allen Institute for AI.