Adapta el funcionamiento de nuestras APIs a tu escenario para conseguir una máxima exactitud en el análisis

MeaningCloud incorpora un conjunto de herramientas de personalización que permiten a los usuarios adaptar el funcionamiento de las APIs a su escenario de una manera sencilla y sin programar. Permiten crear diccionarios y modelos específicos del dominio para que la extracción de información, la clasificación o el análisis de sentimiento tengan una precisión y cobertura óptimas.

Calidad en analítica de texto: precisión y cobertura

Las APIs de analítica de texto no son perfectas. De hecho, el análisis de texto por expertos humanos tampoco lo es, ya que -debido a la ambigüedad del lenguaje- el porcentaje de coincidencia entre anotadores humanos no supera el 85-95%.

La calidad o exactitud del análisis se suele evaluar en términos de precisión (la proporción de los elementos detectados que son relevantes) y cobertura (la proporción de elementos relevantes de se detectan). En general, dada una cierta tecnología de análisis, precisión y cobertura son antagónicas: las mejoras en una se traducen en empeoramientos de la otra, y viceversa. Por eso la clave está en buscar un compromiso entre ambas que resulte óptimo para la aplicación.

Por ejemplo, en una aplicación de monitorización de reputación de marca en medios sociales puede ser necesaria una alta precisión aunque se tenga baja cobertura (el análisis es direccionalmente correcto, aunque se pierdan comentarios); por el contrario, una aplicación de lucha antiterrorista puede exigir alta cobertura (no se escapa nada), aun a riesgo de baja precisión (falsas alarmas que se supervisan manualmente).

¿Por qué personalizar las APIs?

La calidad de un sistema de analítica de texto depende tanto de las tecnologías y algoritmos que utiliza como de los recursos lingüísticos (ontologías, modelos) que incorpora. Por ejemplo, si una cierta entidad no aparece en los recursos que se utilizan para extracción de topics es difícil que se detecte. O, si se quiere detectar sobre cuál de los departamentos de la empresa está tratando una conversación, es necesario disponer de un modelo de clasificación de texto con categorías que representan esos departamentos.

Y obviamente es imposible que un producto estándar recoja en sus recursos todos los topics, temas, etc. de cualquier posible aplicación. Incorporar puntualmente los recursos lingüísticos necesarios en cada caso permite alcanzar un equilibrio óptimo de calidad en el análisis. Esa es la función de las herramientas de personalización de las APIs de MeaningCloud.

Un ejemplo

Imaginemos un usuario que desea analizar comentarios de los clientes relacionados con una empresa de servicios financieros. Probablemente una ontología o unos diccionarios de propósito general no van a cubrir ese sector (en cuanto a productos, personas, temas, etc.) con la suficiente profundidad y extensión como para que no se escapen menciones, asuntos u opiniones relevantes.

Será necesario complementar esos recursos generales con:

  • Los nombres de las empresas, sus productos, sus directivos, etc. más relevantes del sector, para poder monitorizarlos con exactitud.
  • Taxonomías sobre categorías de productos (depósitos, hipotecas, cuentas…) o canales de interacción (oficina, teléfono, web), para poder clasificar las conversaciones.
  • Polaridad positiva/negativa/neutra de los diversos términos en los diferentes usos y contextos, p.ej., la expresión “el tipo de interés es muy alto” puede ser positiva en un contexto de depósitos pero negativa en un contexto de hipotecas.

Herramientas de personalización de MeaningCloud

Para acometer este tipo de retos MeaningCloud cuenta con un repertorio completo de herramientas de personalización que permiten adaptar el funcionamiento de las diferentes APIs al dominio del usuario.

Diccionarios

Crea nuevas entidades y conceptos, conectados en una ontología, para poder identificar su aparición en un texto.

Modelos de clasificación

Crea nuevas taxonomías y entrena/configura motores de clasificación para poder categorizar textos según ellas.

Modelos de sentimiento

Define la polaridad de (grupos de) palabras cuando aparecen en diferentes contextos y realizan diferentes funciones, para adaptar el análisis de sentimiento a tu dominio.

Estas capacidades de personalización se sustentan en la potente tecnología de Procesamiento del Lenguaje Natural de MeaningCloud.

Diccionarios

La herramienta de gestión de diccionarios personales permite crear nuevas entidades y conceptos, asignándoles información semántica y conectándolos en una ontología. Una vez que el diccionario ha sido creado, las APIs de MeaningCloud tales como Topics Extraction, Lemmatization, PoS and Parsing y Sentiment Analysis pueden reconocer estos elementos en un texto y extraerlos, devolviendo la información semántica asociada a ellos.

Modelos de clasificación

La herramienta de gestión de modelos personales de clasificación permite crear taxonomías (integradas por jerarquías de categorías) y construir modelos de clasificación para ellas. De este modo, la API de Text Classification puede categorizar textos de acuerdo a esas categorías. En la definición de una categoría y la creación de un modelo que la clasifique MeaningCloud aplica dos tecnologías:

  • Una basada en textos de entrenamiento y aprendizaje automático, mediante la cual se suministran a la herramienta un conjunto de textos de ejemplo para esa categoría y el sistema genera automáticamente patrones para la clasificación.
  • Otra, basada en configuración de reglas, en la que se especifican al sistema términos que forzosamente deben aparecer en el texto, términos que no pueden aparecer, términos que aumentan la relevancia del texto respecto a la categoría y textos que reducen dicha relevancia.

Esta combinación de tecnologías (entrenamiento más reglas) permite conjugar las ventajas de una rápida puesta en marcha del enfoque estadístico con la alta precisión de las reglas.

Modelos de sentimiento

La herramienta de gestión de modelos personales de sentimiento permite definir la polaridad (positiva, negativa, neutra…) de las palabras en un escenario de aplicación determinado. Al contrario que en otras tecnologías disponibles en el mercado, que esencialmente permiten definir “bolsas de palabras” con polaridad positiva o negativa, esta herramienta de MeaningCloud hace posible:

  • Definir el papel de una palabra como vector de polaridad (contenedor, negador, modificador), permitiendo usar lemas para incorporar fácilmente las variantes de cada palabra
  • Especificar casos particulares de la polaridad de una palabra, dependiendo del contexto en el que aparece o de la función morfosintáctica que desempeña en cada caso
  • Definir expresiones multipalabra como elementos prioritarios en la evaluación de polaridad
  • Gestionar el modo en que estos modelos personales de polaridad complementan o sustituyen a los modelos generales de cada idioma.

Los modelos de sentimiento definidos con la herramienta pasan a estar disponibles para que la API de Sentiment Analysis evalúe la polaridad de acuerdo a ellos.

Autonomía para los usuarios

El principal beneficio de estas herramientas para los usuarios es la autonomía para desarrollar sus propias analíticas de texto personalizadas. Otros proveedores requieren la involucración de sus servicios profesionales (generalmente cara) para realizar una mínima adaptación de sus APIs.

Por el contrario, las herramientas de MeaningCloud permiten que los usuarios sean autónomos para desarrollar –de manera sencilla y sin necesidad de programar- potentes motores de análisis adaptados a sus necesidades y así obtener la máxima calidad.