Archivo del autor: José Luis Martínez

Acerca de José Luis Martínez

Passionate about business around Natural Language processing application to solve real problems. Structuring unstructured data, even in big data environments. Partner at MeaningCloud.

Respondiendo a bulos sobre medicamentos mediante Text Analytics

El pasado fin de semana estuvimos divirtiéndonos en el IV Hackathon de Salud con nuestros amigos del Grupo HULAT de la Universidad Carlos III de Madrid y del equipo que Text Mining for Life Sciences del Barcelona Supercomputer Center. En concreto tomábamos parte del reto de Sandoz #medicamentossinbulos, aplicando tecnología de text analytics al proceso de identificación y respuesta a bulos sobre medicamentos.

Un ejemplo de un caso de bulo puede ser este:

Ejemplo de bulo

Ejemplo de bulo

Podemos distinguir distintos tipos de bulos:

  • Describir una falsedad como si fuese una verdad, como en el ejemplo de arriba
  • Afirmaciones no probadas científicamente
  • Indicaciones o efectos adversos no relacionados con el fármaco en cuestión

La propuesta de valor que definimos durante el hackathon es:

Propuesta de Valor

Propuesta de Valor

 

El principal objetivo de nuestra solución es proporcionar información veraz, rápidamente, para reaccionar a un posible bulo. Esto incluye procesar fuentes externas de confianza, como la web de la Agencia Española del Medicamento o del Ministerio de Salud, entre otros, para, de forma inmediata, localizar datos fiables sobre un fármaco o una enfermedad.

Un caso de uso de este sistema se centra en profesionales de la salud: supongamos un paciente que está preguntando a su médico sobre una noticia que ha leído alertando contra el uso de una medicación que el paciente está consumiendo. Si en ese momento el profesional sanitario dispone de información sólida sobre esa noticia, puede responder al paciente referenciando a esas fuentes externas. Por ejemplo, el médico podría decir ‘la Agencia Española del Medicamento no ha publicado ninguna alerta sobre ese medicamento’ .

Durante el hackathon, preparamos una demostración en la que un bot, @trolabot, identificaba posibles bulos en una conversación de Telegram y proporcionaba a los interlocutores enlaces a contenidos veraces que permitían refutar el posible bulo.

Una herramienta de este estilo es también de utilidad para profesionales de la comunicación en el mundo de la salud, tanto influencers como agencias de comunicación.

El primer paso para identificar estos bulos pasa por saber que se menciona un medicamento a través de técnicas de reconocimiento de entidades. Esta tarea no es sencilla dada la dificultad para escribir esos nombres, como es el caso de la fenilpropanolamina. En general, el lenguaje de salud es muy particular, más complejo que el lenguaje común. Basta leer un informe de una consulta médica para darse cuenta. Por ello, para hacer un tratamiento automático de ese lenguaje es necesario contar con herramientas de text analytics capaces de adaptarse a ese lenguaje, incluyendo recursos léxicos y semánticos específicos del dominio, como pueden ser SNOMED, CIE (ICD en sus siglas en inglés), MedDRA, entre muchos otros. Como no podía ser de otra forma, estos recursos han sido preparados por profesionales de la medicina.

Una vez que sabemos que un post, una noticia o un mensaje de whatsapp hablan sobre un fármaco, es necesario determinar si se trata de un bulo. Para ello podemos explotar el tipo de lenguaje que se suele emplear en estos mensajes, donde aparecen palabras o expresiones casi específicas como ‘sanación’o frases como ‘XXX previene enfermedades como YYY’, donde XXX sería el nombre de un fármaco e YYY el nombre de cualquier enfermedad grave para la que no hay cura o para la que el fármaco no está indicado. Hay que tener en cuenta que existen fuentes de información fiable que permiten saber para qué enfermedades y síntomas está indicado un fármaco y para cuáles no. En definitiva, estamos ante un problema de clasificación de textos para el que se puede construir un modelo de clasificación específico. Dado que no se dispone de ejemplos de bulos suficientes como para entrenar un modelo basado en machine learning el punto de partida sería un modelo basado en reglas, extraídas por lingüistas a partir de los casos de bulos conocidos. Con el tiempo, los bulos recogidos pueden alimentar una colección que pueda emplearse para entrenar un nuevo modelo.

En nuestra propuesta para el reto #medicamentossinbulos tiene como núcleo las tecnologías de text analytics descritas y se distinguen dos fases:

Fase de entrenamiento/diseño del modelo de clasificación de bulos

Fase de entrenamiento/diseño del modelo de clasificación de bulos

Esta es la fase de entrenamiento en la que se combina el proceso de reconocimiento de entidades con el de clasificación. En nuestro caso, como decíamos, no hay datos suficientes sobre bulos en medicamentos como para entrenar un modelo basado en machine learning así que se han desarrollado reglas similares a la que se muestra a continuación.

Ejemplo de regla de identificación de bulos

Ejemplo de regla de identificación de bulos ” ‘fármaco’ produce ‘síntoma/enfermedad”

 

Fase de predicción del sistema de identificación de bulos

Fase de predicción del sistema de identificación de bulos

En la fase 2 se aplican en tiempo real los modelos entrenados anteriormente sobre contenidos que pueden provenir de un sistema de monitorización de medios sociales como Twitter, blogs especializados, etc.

Aunque el premio del reto fue para otra gran idea relativa a la identificación segura de lotes de medicamentos retirados, pasamos un buen rato compartiendo experiencias y aprendiendo con los participantes y mentores del hackathon. ¡Veremos qué pasa el año que viene!

 


¿Pueden los antidepresivos causar malformaciones en el feto?

Puede que no sea lo más común que en el blog de una empresa de tecnología de la información se hable de antidepresivos y embarazos, lo entendemos perfectamente. Pero en MeaningCloud hemos comprobado que los temas de salud tienen una fuerte repercusión en medios sociales y las empresas del sector, incluyendo las farmacéuticas, harían bien en tratar de entender la conversación que se genera alrededor. ¿Cómo? Mediante la tecnología de análisis de texto, como veremos a continuación.

Mirando los datos recogidos por nuestro prototipo para la monitorización de temas de salud en medios sociales nos sorprendimos del repentino incremento de menciones del término ‘embarazo’ el día 10 de julio. Para saber el porqué de este dato, acudimos a los tuits que hablaban sobre ese estado de buena esperanza. Resulta que ese mismo día se había publicado una noticia sobre un estudio aparecido en el British Medical Journal sobre los efectos nocivos que los antidepresivos pueden causar en el feto durante el embarazo.
Continuar leyendo