(Español) Independencia de Cataluña en Ibereval@SEPLN 2017

Sorry, this entry is only available in European Spanish. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language.

rajoy-puigdemontLa semana pasada presentábamos en Murcia la tarea Stance and Gender Detection in Tweets on Catalan Elections en el taller Evaluation of Human Language Technologies for Iberian Languages (Ibereval) de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN).

La introducción de la tarea fue a cargo de la compañera Viviana Patti, de la Università degli Studi di Torino, quien de una manera clara y concisa remarcó las principales diferencias entre análisis de sentimiento y análisis de posicionamiento (stance). Concretamente, podemos definir la detección de posicionamiento (stance detection) como:

“Dado un texto y una entidad objetivo (persona, organización, movimiento, política, etcétera), determinar si dicho texto está a favor, en contra o le es indiferente (o no se puede inferir) con respecto al objetivo dado”

La diferencia principal es que el objetivo principal del análisis de sentimiento clásico es determinar si un texto es positivo, negativo o neutro. Por contra, en la detección de posicionamiento (stance), el objetivo es determinar la preferencia o posicionamiento favorable/en contra con respecto a una entidad de interés dada (aunque no tiene por qué estar presente en el texto).

Para hacer posible la tarea, desde Autoritas con la herramienta Cosmos recuperamos un conjunto de datos relativos a hashtags como #indepencencia y #27s del periodo del 27 de septiembre de 2015, que posteriormente fueron anotados por un equipo de la Universitat de Barcelona a cargo de Mariona Taulé y M. Antònia Martí. El proceso de etiquetado no está exento de dificultades, como nos comentaba Mariona “llegábamos a estar 45 minutos poniendo en común el posicionamiento de un solo tuit”. Finalmente se etiquetan 10.800 tuits con su posicionamiento con respecto a la independencia, equilibrados por sexo del autor (mitad hombres, mitad mujeres), y por el idioma (mitad en español, mitad en catalán).

La presentación de los participantes, sus aproximaciones y los resultados alcanzados me correspondieron a mi, donde mostré el interés internacional que ha despertado el tema (y la tarea), con 10 equipos participantes de 5 países diferentes (España, Italia, Alemania, India y China), y con un total presentado de 31 sistemas. Entre ellos, han destacado los presentados por dos equipos de la UPV, uno de ellos basado en una combinación de características de estilo y algoritmos de aprendizaje clásicos como SVM, y que obtiene el mejor resultado con medidas F de 49,01% y 48,88% respectivamente para catalán y español, y el otro con combinación de representaciones distribuidas y técnicas de deep learning, con unos segundos resultados de 46,75% y 46,79% respectivamente para ambos idiomas.

Es de resaltar la dificultad de la tarea de detección de posicionamiento, donde ningún participante supera el 50% en medida F. También es interesante resaltar algunos descubrimientos cuando analizamos el error cometido por los sistemas, como por ejemplo que dicho error es mayor cuando el autor del tuit es un hombre, lo que parece ser debido a un uso superior de la ironía cuando lo autores de este sexo se posicionan en contra.

Para más información sobre la tarea y los resultados, se recomienda consultar:

Terminar diciendo que para el año que viene esperamos poder repetir, con las siguientes novedades:

  • Un nuevo dataset recopilado en el marco del 1O.
  • Un contexto entorno al tuit, por ejemplo, proporcionando los n tuits anteriores y posteriores, lo que le da una perspectiva más orientada al autor (author profiling) que al texto individual (text mining).
  • Una perspectiva multimodal de la tarea: texto + fotos + vídeos + links + …
  • Aunque no esperamos que forme parte de la tarea, efectuaremos un etiquetado y posterior análisis de resultados tomando en consideración el uso de lenguaje figurado por parte de los usuarios (negación, ironía, sarcasmo…)

Stay tuned!! 😉

 

Submit a Comment

Your email address will not be published. Required fields are marked *