Cosmos y las Ciencias Cognitivas

“In the beginning was the Word, and the Word was with God, and the Word was God”. Thus, John 1:11 begins his contribution to the Holy Bible (one of the most-distributed book in the world with hundreds of millions of copies), the importance of the word lies in the essence of human beings.

Esta pasada semana estuve junto con Paolo Rosso en Marsella  en el precioso campus Luminy presentando en el Natural Language Processing and Cognitive Sciences las últimas investigaciones sobre el uso del lenguaje para perfilar autores en relación a la identificación de género y edad, una experiencia compartida con grandes investigadores de las ciencias cognitivas como Michael Zock de los que no puedes menos que aprender grandes cosas.

La investigación presentada versa sobre cómo el uso del lenguaje puede ayudar a la identificación de rasgos personales como la edad y el género. La base cognitiva del estudio son las investigaciones de Broca y Wernicke, quienes identifican zonas del cerebro como responsables del procesamiento del habla y del discurso.

Tras el análisis del uso del lenguaje en los diferentes canales de internet y el análisis de emociones en facebook (pendiente de publicación), realizamos un análisis del uso del lenguaje por género, mostrándonos resultados tan interesantes como los siguientes:

pos per gender

Como se puede apreciar, las mujeres utilizan en un porcentaje significativamente superior los determinantes (13,66%), interjecciones (66,67%) y pronombres (19,20%), y por contra los hombres lo hacen con las preposiciones (6,84%), lo que concuerda con los estudios de Pennebaker para el inglés y con sus conclusiones acerca de que los hombres están más interesados en describir las cosas (nombres y verbos) posicionándolas y jerarquizándolas en espacio, tiempo, dirección, modo… (preposiciones), y las mujeres están más interesadas en las relaciones interpersonales (pronombres) y en describirlas de una manera más dinámica (determinantes, interjecciones).

Tras ello decidimos modelar el lenguaje y usarlo como predictor en un problema de clasificación de género y edad en el dataset de la tarea de Author Profiling en el PAN -CLEF del 2013, obteniendo unos resultados competitivos con respecto al resto de participantes y mostrando que las características propuestas, todas descriptoras del estilo de escritura, y por lo tanto independientes de la temática y del idioma, no sólo modelan de una manera efectiva el lenguaje para la identificación de edad y género, sino que lo relacionan con el perfil emocional de los usuarios (como se describirá tras la publicación del paper).

Aquí dejo la presentación, el acceso al paper y a los proceedings porque ninguno de ellos tiene desperdicio.

Paper:  Use of Language and Author Profiling: Identification of Gender and Age. Francisco Rangel and Paolo Rosso

Proceedings: NLPCS2013 proceedings

[iframe http://www.slideshare.net/slideshow/embed_code/27384105 500 400]

 

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *