Author Profiling at PAN 2014

Tras el éxito de la pasada edición de la tarea Author Profiling en el PAN 2013, como sabéis este año lanzamos la tarea de nuevo en PAN 2014 pero con ciertas novedades.

Colaboración con RepLab

Este año como novedad realizamos una estrecha colaboración con otro laboratorio, RepLab, enlazando así la tarea de perfiles de autor con la reputación. RepLab ha participado activamente en la construcción de un dataset de Twitter donde los usuarios son generadores de opinión en temáticas como banca y energéticas.

Nuevos canales / nuevos datasets

El año pasado centramos la tarea en un gran dataset construido de manera automática a partir de redes sociales. Este año hemos modificado ese dataset e incluido nuevos canales:

– Social Media: A partir del dataset del año pasado, se ha procesado la información para eliminar todos aquellos autores que tenían menos de 10 posts y además que la media de palabras de esos posts sea superior a 100, asegurando de este modo mayor calidad de los datos pero manteniendo la esencia de lo que significa el Social Media.

– Blogs: Se ha construido un dataset de blogs de temática variada mediante la anotación manual de la edad y el género de sus autores. Este corpus se presenta como un conjunto de autores con al menos un post. La principal cualidad de este dataset es la calidad de la escritura frente a otros canales sociales. El dataset incorpora el contenido de los posts, recuperado a partir de los rss de los blogs, y también la url del blog, los permalinks a los posts y la url al feed rss, por si alguien quiere ampliar los contenidos u obtener características externas al contenido.

– Twitter: Se ha construido un dataset de tuitteros de temática variada mediante la anotación manual de su edad y género. Se ha recuperado un mínimo de 50 y un máximo de 1000 tuits por tuittero, y se han eliminado los RTs. La distrubución de este dataset, por restricciones de Twitter, se ha efectuado mediante los IDs a los tuits, sin liberar contenido, por lo que son los participantes los que deben descargarlo. Por supuesto, como se proporciona la cuenta del tuitero, los participantes pueden ampliar el número de tuits a utilizar o bien información del tuitero que les pueda servir de ayuda. NO se permiten “trampas” como utilizar sólo el nombre propio del tuitero para identificar el género. Aproximadamente un 20% de los perfiles han sido proporcionados por RepLab y se refieren a generadores de opinión de temáticas concretas como banca y energéticas.

– TripadvisorWeimar ha proporcionado, únicamente para el inglés, una muestra de usuarios y comentarios de Tripadvisor, por lo que se asocia el contenido a temas relacionados con el turismo.

Nuevos rangos de edad

Con el objetivo de hacer la tarea más realista, hemos modificado los rangos de edad a los siguientes:

18-24, 25-34, 35-49, 50-64, 65+

Keynote speakers

Tenemos dos keynote speakers de lujo, Paul Clough que nos hablará de “Proving Ownership: The Case of “Wag in a Bag”, y Fabio Celli que nos hablará de “Unsupervised Personality Recognition from Text: Possible Applications”

Stay tuned! http://pan.webis.de

Submit a Comment

Your email address will not be published. Required fields are marked *