Author Profiling y La Vanguardia

la-vanguardia

El otro día en unas charlas de doctorado un colega me comentó que un amigo suyo había hecho una entrevista para científico de datos en La Vanguardia y que una de las preguntas que le habían hecho tenía que ver con author profiling, concretamente, que cómo abordaría él el problema de identificar si el autor de un comentario es mujer u hombre.

Interesante cuestión, y más interesante su respuesta pues dijo que tomando la última letra del nick (wtf!?!?!?). Bueno, lo primero de todo decir que ser (o querer ser) científico de datos no implica saber de todo, y menos de algo concreto como es el author profiling, y más concretamente de cómo identificar el sexo. Ser científico de datos implica más bien ser capaz de hacer ciencia con los datos, y eso implica muchas horas de investigación del estado del arte. Así que no crucifiquemos al chico 😉

Lo segundo es que me dio que pensar en cómo abordaría yo el problema. Lo primero que haría sería ir a ver los comentarios que se escriben en La Vanguardia, como por ejemplo:

Captura de tela 2015-05-04 às 21.25.57

Lo primero que veo es que los comentarios son muy cortos, algo que juega en contra de querer perfilar al autor por lo que escribe. Viendo los nicks no tengo claro que yo decidiera usar sólo la última letra del mismo (aunque no descarto probarlo, ¡quién sabe!), y por lo que veo tampoco me sirve demasiado el nick completo como para buscarlo en un gazeteer de nombres de mujeres y hombres (aunque tampoco lo descartaría), pues son nombres muy impersonales (aunque en mi opinión algunos “huelen” mucho a hombre: EL Astronauta en lugar de LA, javimenta ¿será Javier?…). Pero veo que pinchando en el nick La Vanguardia te lleva al perfil del registro del usuario, como se ve a continuación:

Captura de tela 2015-05-04 às 21.33.56

No es que lo que hay disponible te de demasiada información del usuario, a excepción del número de comentarios realizados. Esto sí. Esto significa que La Vanguardia dispone de todos los comentarios que este usuario hizo, por lo que ese texto tan corto se convierte, si juntamos todos los comentarios, en un texto mucho más largo para cada autor. Bien, esto ya es otra cosa.

Ahora hay que decidir qué aproximación utilizar. A mi particularmente me gustan los métodos supervisados, porque son más fáciles de evaluar su calidad. Esto significa tener un conjunto de datos de entrenamiento que permitan aprender, otro conjunto de test con autores etiquetados con su sexo que permita evaluar, y después, atacar al resto sabiendo en qué orden de precisión nos movemos. El problema, es tener esos datos etiquetados. Y aquí podemos probar dos cosas:

– Intentar obtener una muestra etiquetada de este mismo medio, es decir, intentar obtener una muestra etiquetada de comentarios de La Vanguardia

– Aprender en otro medio a partir de otro dataset como por ejemplo los que liberamos en la competición del PAN y aplicarlo a este medio. Esto se consideraría Author Profiling Cross-Genre y esperamos poderlo atacar el año que viene en el PAN 😉

Yo optaría por un mix, aprendería con datasets de otros medios y los combinaría con uno aprendido en la propia Vanguardia. ¿Pero cómo hacer un dataset etiquetado en La Vanguardia? Pues una heurística (siempre me gusta recordar cuando doy clase que heurística es lo que comúnmente se considera una “chapuza” pero con un nombre más políticamente aceptado) sería construir un dataset con aquellos autores cuyo nombre no deje lugar a duda de si son mujeres u hombres. Incluso, con ayuda de algún becario (y/o de sudor y lágrimas), utilizaría las fotos del perfil. Está claro que te tienes que fiar de lo que ponen tanto en el nick como en la foto, pero qué carajo, ¿esto no es Social Media?

Bien, hemos decidido seguir una aproximación supervisada y hemos construido un dataset (y obtenido otros públicos) para aprender un modelo y evaluarlo. Ahora necesitamos una representación. Pues para empezar, haría una iteración de 1 a 10 de n gramas de palabras y caracteres a ver qué n me da mejores resultados. Son representaciones que se conocen como baselines, pero que en ocasiones son difíciles de batir con representaciones más elaboradas, y en esta tarea concreta, así queda patente en los overview de las competiciones que llevamos a la espalda.

Con estas representaciones entrenaría diferentes clasificadores. Me suelen gustar bastante las máquinas de vectores soporte porque aunque son tardonas en aprender, generalizan bastante bien, sobre todo si les tuneas los parámetros. Últimamente estoy jugando con metaclasificadores, que suelen generalizar bastante bien mientras no incurren en overfitting, por lo que es divertido. También están de moda los algoritmos de deep learning, aunque no dejan de ser una reinvención de las redes neuronales que tanto prometían y tanto defraudaron en los 80-90. A gustos, colores.

Y a probar… porque esto no es más que el comienzo, por algo no soy el único doctorándome en este asunto.

La pregunta ahora es, ¿hubiera aprobado yo esta pregunta en la entrevista para científico de datos de La Vanguardia? 😉

Submit a Comment

Your email address will not be published. Required fields are marked *