Facebook lanzó recientemente los primeros mapas condado por condado de los EE. UU., en los que se muestra la prevalencia de síntomas del COVID-19, información proporcionada por quienes utilian esta plataforma.

Los datos, como se ha mostrado, se obtienen de una encuesta voluntaria que Facebook envió a  sus usuarios, y que es operada por el Centro de Investigación Delphi de la Universidad Carnegie Mellon, también en los EE. UU.

Mark Zuckerberg, CEO de Facebook, comentó que el objetivo de las encuestas es la de  proporcionar a los funcionarios estatales información útil para determinar los lugares en los que se pueden necesitar recursos directos, como podrían ser los equipos de protección personal (EPP), por poner un ejemplo.

Zuckerberg enfatizó que las plataformas de redes sociales tienen una ventaja cuando se trata de ayudar a los investigadores de la salud, ya que pueden acceder a grandes grupos de personas de una manera rápida y sencilla.

Los creadores de Instagram, Kevin Systrom y Mike Krieger se unieron para lanzar su primer producto juntos desde que dejaron Facebook. Este producto se llama Rt.live, y es un rastreador actualizado de cuán rápido se está propagando COVID-19 en cada estado de la unión americana. Kevin Systrom ha estado escribiendo y publicando cuadernos de análisis de datos de código abierto sobre cómo calcular Rt a diario. Así que están tomando ese trabajo y visualizarlo para que cualquiera pueda ver cómo está su estado y tratar de frenar la propagación.

Claro que estas empresas no son las únicas ni las más importantes en temas estadísticos, pero sí son un par de muestras útiles para ejemplificar la forma en la que todas las industrias colaboran para tratar de entender la propagación del COVID-19.

Es importante destacar, que el problema principal no está en quién realice los análisis, sino en la obtención y calidad de los datos con los que se alimentan los modelos matemáticos, y crear los algoritmos que idealmente nos ayudarán a entender lo que está ocurriendo.

Los principales problemas para obtener datos son: la persona que los recolecta, dónde, la frecuencia y los criterios para obtenerlos. Si los datos provienen de distintas fuentes, hay que separar los orígenes y entender los criterios para poder reclasificar las categorías o taxonomía de la información, considerando que a mayor número de fuentes, más tiempo se dedica en la homologación de criterios.

A modo de ejemplo, Ecuador incluye en sus datos “fallecidos probables por COVID-19” para dar cuenta de los fallecidos sin diagnóstico confirmado. Reino Unido no toma en cuenta a los ancianos fallecidos por COVID-19 fuera del sistema hospitalario, Nueva York está actualizando sus estadísticas para incluir posibles víctimas a las que nunca se les practicó la prueba del coronavirus, por otro lado la Office for National Statistics (ONS) elabora sus propios reportes con base en los certificados de defunción en los que se menciona al COVID-19, aunque sea a nivel de sospecha, por lo que también incluye muertes acaecidas fuera de los centros hospitalarios.

En México la Dra. Nora Liliana Martínez, especialista en epidemiología comentó que no se han tomado muestras al 100% de la población afectada, si no a un grupo muestra que tiene las características de la enfermedad. Si los resultados son positivos o negativos, representan 10 casos, mientras que en otros países se hace un muestreo con infectado y no-infectado porque necesitan tener otras bases de comparación. Alemania se ha destacado por el elevado número de pruebas realizadas, que incluyen a potenciales pacientes asintomáticos, mientras que en Italia la orientación oficial es que “en ausencia de síntomas… la prueba no se justifica desde el punto de vista científico”.

Para no dejar fuera otros aspectos, la terminología usada genera confusiones; por ejemplo, la diferencia entre “incidencia y prevalencia”. La incidencia se usa para definir “nuevos casos” mientras que la prevalencia se usa para “casos acumulados”, además de que la información es incompleta porque el sistema de información no se homologa, lo que deja vacíos que se van llenando con información de otros lugares, e inclusive otros países y que terminan arrojando datos de baja calidad, lo que produce resultados de pobres y dispares.

Otro problema es la elección del modelado matemático dependiente del estado de propagación, vale la pena anotar que estos modelos van cambiando de acuerdo con distintas variables que muchas veces no son completamente predecibles, como son los movimientos (transporte y migración) de masas, la adopción de medidas precautorias, y los problemas de información falsa o sobreinformación.

Con múltiples fuentes de información y calidades de datos, las transiciones en los modelos estadísticos tampoco resultan ser claros en su evolución, ya que las empresas de redes sociales y tecnología crean sus propios modelos de análisis; en el caso de Instagram se usan modelos bayesianos modificados para entender lo que sucede es ese momento; Facebook utiliza los resultados de encuestas voluntarias y Apple mediante el uso de los mapas  de su propiedad y otros sistemas que documentan la movilidad.

La velocidad de recepción de los datos es el tercer punto clave, la recolección y análisis toma tiempo, de tal forma que siempre conocemos lo que ya sucedió, tratando de predecir lo que puede pasar, y nos encontramos con que las variables de nuevo van en aumento o cambian de maneras drásticas dependiendo de los eventos ocurridos en la semana con la economía, lo social, lo político y especialmente con lo que se comunica. En los estudios es difícil tener la información en tiempo real, salvo que quien hace las publicaciones pueda organizarse en el desarrollo de sistemas automáticos que pudieran proporcionar información segundo a segundo, la que no estará exenta de errores, por la fuente y calidad de datos.

Finalmente la comunicación de los datos. Normalmente en el análisis de datos, se explican en un contexto, entonces hay que elegirlo bien para que en ese entorno se pueda dar un sentido más apegado a la realidad local. Los datos que se obtienen en los Estados Unidos, no aplican a México ni tampoco ponen una línea base de comparación, simplemente por tipo de entorno, cultura, etc.

Mucho del sesgo de verificación o confirmación, ocurre cuando la comunicación no es clara, no se baja el nivel discursivo para que todos lo puedan entender y la gente busca hacer correlaciones de la información con lo que encuentra en otros medios y que confirma sus creencias.

Este sesgo se caracteriza por estos cuatro puntos básicos:

  • Mucha información, el ruido se convierte en señal y la filtramos de manera agresiva, por eso no nos hace sentido las estadísticas que nos muestran y nos ayuda a creer lo que dicen otros medios con información inexacta.
  • La información no tiene suficiente significado, como hay huecos informativos generados por el lenguaje formal, la señal se convierte en historia, así que tiende a confundirnos.
  • Necesitamos actuar rápido, porque no queremos perder la oportunidad o pensamos que debemos actuar sin perder tiempo (aplicar la cuarentena, surtir alacenas, comprar medicamento, etc.) así que nos brincamos los datos y la historia se convierte en toma de decisiones.
  • Finalmente tratamos de recordar los puntos importantes y estas decisiones informan o forman nuestros modelos mentales; en otras palabras, “nos quedamos con la idea de…”

Como conclusión, debemos tener cuidado con los datos que leemos en las redes sociales por que pueden ser datos parciales. Las plataformas como Google o Apple, también ofrecen datos parciales porque su acceso a la información también es limitado. Todas las estadísticas y estudios que leemos, comentamos y escuchamos sobre el tema de COVID-19, siguen siendo parciales porque no hay una homologación de datos, conceptos, metodologías, modelado matemático y mucho menos de comunicación de resultados, para saber exactamente qué ha pasado, aún nos falta mucho, mucho tiempo.

Por: Antonio Salgado, miembro del consejo Editorial de códigoF.

Fuentes:

CNBC.
Facebook is tracking coronavirus symptoms by county to identify hotspots.

Facebook.
How Data Can Aid the Fight Against COVID-19.

TechCrunch.
Instagram founders launch COVID-19 spread tracker Rt.live.

Rt Live
Rt Covid-19.

github.
Estimating COVID-19’s $R_t$ in Real-Time.

covidtracking.
The COVID Tracking Project collects and publishes the most complete testing data available for US states and territories.

systrom.
The Metric We Need to Manage COVID-19.

nbcnews.
Facebook releases county-by-county maps showing people reporting COVID-19 symptoms.

BBC.
Cómo se cuentan los muertos por coronavirus (y por qué las cifras oficiales no son comparables ni precisas).