Datos de entrenamiento de la competición sobre Author Profiling #PAN 2013

Hemos liberados los datos de entrenamiento para la tarea sobre Author Profiling de la competición PAN 2013 en la que el objetivo es la detección del género y el rango de edad al que pertenecen los autores a partir de sus textos escritos.

Los datos de entrenamiento vienen etiquetados por:

  • IDIOMA: Inglés y Castellano
  • GÉNERO: Masculino y Femenino
  • RANGO DE EDAD:
    • 10s: Rango de edad entre 13 y 17 años
    • 20s: Rango de edad entre 23 y 27 años
    • 30s: Rango de edad entre 33 y 47 años

El corpus en inglés incorpora 236.000 autores, con 413.564 conversaciones y 180.809.187 palabras. El corpus en castellano incorpora 75.900 autores, con 126.453 conversaciones y 21.824.198 palabras, distribuidos de la siguiente manera:

LANG AGE GROUP GENDER N. OF AUTHORS
EN 10s MALE 8.600
FEMALE 8.600
20s MALE 42.900
FEMALE 42.900
30s MALE 66.800
FEMALE 66.800
ES 10s MALE 1.250
FEMALE 1.250
20s MALE 21.300
FEMALE 21.300
30s MALE 15.400
FEMALE 15.400

Se ha incorporado además documentos de autores que pretenden aparentar ser menores, como por ejemplo líneas de chats de pedófilos extraídas de la competición del año anterior.

Esperamos que os animéis a competir, ya tenemos varios equipos interesados y me gustaría ver a las grandes empresas e investigadores del PLN de nuestro país compitiendo en una materia tan novedosa como floreciente como es el Author Profiling, y en esta primera competición en nuestro idioma.

Podéis descargar el dataset con las instrucciones en la Web del PAN: http://pan.webis.de en el apartado Author Profiling.

Submit a Comment

Your email address will not be published. Required fields are marked *