Precisión y Alcance en la Recuperación de Información

A menudo se usa en evaluación de la recuperación de información dos medidas que combinadas nos pueden dar un indicador de la calidad de lo que se está midiendo, esto es, la calidad de la información recuperada. Voy a intentar plasmarlo como se lo contaría a mi abuela para que lo entendiera porque en Escucha Activa una de las principales cuestiones a resolver lo mejor posible es la recuperación de información, pero digo a resolver lo mejor posible porque no es un problema que esté resuelto, y es importante comprender las limitaciones para poder realmente valorar la bondad de un determinado sistema.

Estas dos medidas se llaman en inglés Precision y Recall, algo así como precisión y alcance de los datos recuperados. Veámoslas por separado y mediante un ejemplo concreto.

  • Cuando un usuario dice que le ha aparecido un documento que no se corresponde con lo que él está buscando, se presupone que hay un fallo de precisión, ya que se está recuperando un documento que no se corresponde con lo que el usuario está buscando.
  • Por otro lado, cuando un usuario dice que no le ha aparecido un documento que sí que le debería haber aparecido, se presupone que hay un fallo de alcance, ya que no se está recuperando un documento que sí que se corresponde con lo que el usuario está buscando.

El objetivo  de todo sistema de recuperación de información  es obtener un 100% en precisión y en alcance. Pero esto es una quimera, una utopía, un imposible, y esperar algo así es un acto de inconsciencia suprema. El problema viene  cuando alguien vende la idea de la posibilidad de este 100% en ambas medidas, o alguien trabaja creyendo en esta posibilidad. Pero inconscientes siempre los ha habido y habrá…

Precision vs Recall

Entonces, partiendo de esta imposibilidad, tenemos tres posibilidades:

  1. Tener un sistema de alta precisión a costa del alcance. Esto significaría tener un sistema que todo lo que recupera es correcto, todo se corresponde con lo que espera el usuario, pero pueden faltar muchos documentos por recuperar. Para ello el sistema primará que lo que se recupera sea correcto a base de aplicar filtros restrictivos para que no se recupere nada que no corresponda. Un ejemplo sería una búsqueda literal restringida a una ubicación geográfica en Twitter, por ejemplo: +q:”Escucha Activa”  +near:”Valencia” +lang:”es”, y no dejar que se recupere nada que no cumpla exactamente estas condiciones. 
  2. Tener un sistema de alto alcance a costa de la precisión. Esto significaría tener un sistema que recupere la mayor cantidad posible de información relacionada con lo que se espera, aunque en algunas ocasiones se recuperen documentos que no son del todo correctos. Para ello el sistema primará recuperar todo lo posible, expandiendo al máximo las consultas, de manera que todo lo que se parezca a lo que se espera sea recuperado, aunque en ocasiones no se corresponda.  Un ejemplo sería una búsqueda aproximada (¡ojo, no booleana!, sino una búsqueda fuzzy) a un literal deseado, por ejemplo “Puerto de Mahón” sería muy aproximada a “Port de Maó”, pero también a “Meo en el puerto”, por lo que se recuperará mucha más información a costa de que alguna información no sea relevante.
  3. Un sistema balanceado en ambos aspectos, por lo general con una aproximación mixta a ambas posibilidades, de manera que se permita cierta pérdida de precisión, recuperando documentos que no son del todo correctos, a costa de mejorar el alcance y  recuperar el máximo posible de documentos.

Es importante al enfrentarse a un sistema de recuperación de información, sea una Escucha Activa, sea un motor de búsqueda corporativo, evaluarlo teniendo en mente las posibilidades que describo arriba y no esperar quimeras imposibles de satisfacer. Por ejemplo, un sistema que de 7.000 documentos recuperados ha recuperado 54 que no son correctos, significa que tiene una precisión de 99,23% de precisión. A su vez, un sistema que de 3.000 documentos recuperados no haya recuperado 50 tendría un alcance de 98,36%. No son malas cifras…

En próximos posts veremos cómo se pueden mejorar tanto la precisión y el alcance, y cómo Cosmos implementa algunas de estas tecnologías.

 

 

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *