Datos de entrenamiento de la competición sobre Author Profiling #PAN 2013
Hemos liberados los datos de entrenamiento para la tarea sobre Author Profiling de la competición PAN 2013 en la que el objetivo es la detección del género y el rango de edad al que pertenecen los autores a partir de sus textos escritos.
Los datos de entrenamiento vienen etiquetados por:
- IDIOMA: Inglés y Castellano
- GÉNERO: Masculino y Femenino
- RANGO DE EDAD:
- 10s: Rango de edad entre 13 y 17 años
- 20s: Rango de edad entre 23 y 27 años
- 30s: Rango de edad entre 33 y 47 años
El corpus en inglés incorpora 236.000 autores, con 413.564 conversaciones y 180.809.187 palabras. El corpus en castellano incorpora 75.900 autores, con 126.453 conversaciones y 21.824.198 palabras, distribuidos de la siguiente manera:
LANG | AGE GROUP | GENDER | N. OF AUTHORS |
EN | 10s | MALE | 8.600 |
FEMALE | 8.600 | ||
20s | MALE | 42.900 | |
FEMALE | 42.900 | ||
30s | MALE | 66.800 | |
FEMALE | 66.800 | ||
ES | 10s | MALE | 1.250 |
FEMALE | 1.250 | ||
20s | MALE | 21.300 | |
FEMALE | 21.300 | ||
30s | MALE | 15.400 | |
FEMALE | 15.400 |
Se ha incorporado además documentos de autores que pretenden aparentar ser menores, como por ejemplo líneas de chats de pedófilos extraídas de la competición del año anterior.
Esperamos que os animéis a competir, ya tenemos varios equipos interesados y me gustaría ver a las grandes empresas e investigadores del PLN de nuestro país compitiendo en una materia tan novedosa como floreciente como es el Author Profiling, y en esta primera competición en nuestro idioma.
Podéis descargar el dataset con las instrucciones en la Web del PAN: http://pan.webis.de en el apartado Author Profiling.