Author Profiling task en PAN’17

clef17-logoLa semana pasada presentamos en el CLEF la tarea de Author Profiling del laboratorio PAN. El objetivo de este año ha sido ambicioso: abordar la identificación de sexo y de variedad del lenguaje de usuarios de Twitter. Debido al foco multilingüe del CLEF, se ha abordado la tarea en los siguientes cuatro idiomas (con sus correspondientes variedades):

language-varieties-author-profiling-pan17

Algunos de los hallazgos más importantes han sido los siguientes:

  • Las aproximaciones de deep learning, aunque han funcionado bien, no han conseguido superar a las aproximaciones clásicas basadas en n-gramas y algoritmos de aprendizaje como logistic regression o support vector machines.
  • Los mejores resultados se han obtenido para el portugués, tanto en identificación de variedad, donde había que decidir entre dos posibilidades frente al resto de idiomas donde había que decidir entre cuatro y siete, como en identificación de sexo, donde el escenario es el mismo para todos.
  • Los peores resultados se han obtenido para el inglés en el caso de identificación de variedad, y para el árabe en caso de identificación de sexo.
  • Los peores resultados en identificación de variedad en inglés se han debido a la similitud entre variedades que comparten una región geográfica. Por ejemplo, la de Estados Unidos con la canadiense, la de Gran Bretaña con la irlandesa, o la de Nueva Zelanda con la australiana. Por ello se ha efectuado una evaluación de grano grueso, agrupando en los tres grupos anteriores, y observando cómo la precisión mejora significativamente.
  • A la hora de identificar variedad, tanto en árabe como en portugués, resulta más difícil en el caso de que el autor del texto sea un hombre.
  • De manera similar, en la mayoría de variedades del árabe y del portugués, los hombres son más difíciles de identificar. En caso del español y del inglés, depende de la variedad en cuestión, mostrando una dificultad más uniforme entre todas ellas.

En la siguiente tabla se resume el estado del arte del PAN’17 para la identificación de sexo, variedad y ambas conjuntamente:

state-of-the-art-author-profiling-pan-2017

Para más información sobre la tarea y los resultados, se recomienda consultar:

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *