Author Profiling en el mundo real

Author Profiling (¿podríamos decir perfilar autores?) es un campo de investigación transversal a diferentes disciplinas como la lingüística (computacional), procesamiento del lenguaje natural, aprendizaje automático, recuperación de información, neurología, marketing… que básicamente trata de averiguar la máxima información personal posible de un autor o usuario a partir de lo que anónimamente escribe: edad, género, idioma nativo, perfil emocional, rasgos de personalidad…

Es una disciplina que está adquiriendo gran importancia día a día y ya empiezan a aparecer resultados realmente sorprendentes en tareas como la detección de edad o de género, sorprendentes porque en muchos casos superan el 90% de precisión (ojo, su término correcto en inglés es accuracy y no precision, hay una ligera diferencia que algún día explicaré pero que a los efectos no supone nada para esta explicación).

Pues bien, como cualquier investigación hay que tomar con pinzas los resultados publicados en el estado del arte a la hora de aplicar la técnica al mundo real, al mundo de la industria, y aquí voy a explicarlo para que un niño de primaria lo pueda entender.

Cuando en un campo de investigación se trabaja, gran parte del tiempo se dedica a la construcción de los datasets o conjuntos de datos sobre los que trabajar. Una aproximación bastante generalizada es la de enseñar a la máquina con una parte de estos datos y probarla con otra parte diferente de estos datos. Está claro que estos datos se construyen procurando que sean lo más fieles posibles a la clase, esto es, si queremos perfilar el género de un usuario, es decir, si es hombre o mujer, procuraremos construir un gran dataset de documentos escritos por hombres y por mujeres, para intentar ver las diferencias y que la máquina las aprenda. Cuando este dataset lo construimos con total certeza de su calidad, es decir, sabemos que todos los documentos etiquetados como escritos por una mujer realmente han sido escritos por una mujer (por ejemplo, porque tenemos una gran cantidad de personas a las que pedimos que nos escriban los textos), lo llamamos Gold Standard. En cambio, si el dataset lo construimos sin esa certeza, aunque estando bastante seguros, por ejemplo, tomamos como mujer todos los tuits escritos por usuarios que se llamen María, Sara, Sonia, Lucía… y como hombre todos los tuits escritos por usuarios que se llamen Manolo, Francisco, José…, sin que haya ambigüedad en los nombres y por lo tanto teniendo una elevada confianza en la calidad de los datos, a esto lo podemos llamar Silver Standard.

Y en el mundo científico se trabaja con uno de estos dos tipos de datos.

Ahora pasemos al mundo industrial, al mundo real, dónde vamos a aplicar estas técnicas. Por ejemplo, vamos a aplicar Author Profiling a la Escucha Activa, para saber la edad y el género de los usuarios que recuperamos de Twitter. Aquí nos encontramos con lo siguiente:

author profiling type of users

 

Tenemos un gran conjunto de datos (de prueba) que se llama Internet, concretamente la parte de Internet que recupera nuestra Escucha Activa. Esta parte de Internet que hemos recuperado está escrita por dos tipos de usuarios:

  • Usuarios FAKE, como robots para mejorar el SEO, chatbots que se hacen pasar por personas, ads que intentan atraer la atención de las personas…
  • Usuarios REALES.

El primer problema es diferenciar entre estos dos tipos de perfiles, hay que eliminar los perfiles FAKE porque no vamos a poder perfilarlos (no tiene sentido ni siquiera perfilarlos ya que no son personas), y quedarnos sólo con aquellos usuarios que sean personas reales. Y entonces nos encontramos con las tres siguientes casuísticas:

  • Usuarios que REUSAN texto de otros usuarios, por ejemplo citas filosóficas, poesías, o incluso plagio. En cualquier caso debemos detectar este tipo de situaciones ya que podríamos perfilar de manera incorrecta a una adolescente que está escribiendo poesías de Becker. Pensad como caso especial los RTs. En este punto vemos una clara relación entre Author Profiling y Authorship Attribution o Plagiarism Detection.
  • Usuarios que escriben de manera INSUFICIENTE para dar los buenos días, para compartir enlaces sin decir nada… En estos casos no tenemos suficiente información textual como para poder generar un perfil. Se suele compensar esta situación agrupando múltiples textos de un mismo autor, pero en cualquier caso es una limitación y en muchos otros es un imposible.
  • Usuarios PERFILABLES, es decir, usuarios que escriben largos textos (dentro de las limitaciones que pueda imponer el canal, piénsese en Twitter) que son de su propia creación. Estos serían nuestro Gold Standard.

La cuestión no está tanto en conocer las situaciones anteriores y en aplicar las técnicas necesarias para detectarlas, algo no trivial, sino en las dos consecuencias directas que de ello se derivan:

  • ¿Cuál es la proporción entre usuarios fake y usuarios reales?, ¿cuál entre usuarios que escriben sus propios textos y  los que reusan texto de otros?, ¿cuál entre usuarios que escriben suficiente información y  los que se dedican a compartir enlaces o a dejar pequeños saludos? Porque estas proporciones serán las que determinarán a priori cuántos usuarios realmente podrán ser perfilados.
  • Si para llegar a perfilar a un usuario primero hay que detectar los perfiles fake mediante una técnica que tiene una precisión determinada, después eliminar los textos reutilizados mediante otra técnica que tiene otra precisión determinada, y decidir cuál es la unidad mínima de información para poder realizar un perfil del autor con otra precisión determinada. ¿En qué medida la precisión final del Author Profiling se verá reducida frente a la que nos viene dada contra los gold standard del estado del arte?

Tenemos que tener en mente lo anterior para leer con cierta atención (¿escepticismo?) los estudios de Escucha Activa que hablan de porcentajes de hombres y mujeres, de edades de los internautas, o de cosas más complejas como los rasgos de personalidad, y poner los pies en el suelo cuando se analicen los resultados de procesos automáticos de perfilado de autores; estos sistemas fallan, y no lo hacen en la proporción que indican los papers académicos que trabajan con los Gold Standard, lo hacen en una proporción mayor porque los datos están sucios, no son gold ni silver.

 

2 Comentarios

  1. Sara de la Fuente
    Jan 6, 2015

    Hola Francisco,

    Soy una estudiante del Máster de Comunicación Digital en Abat Oliba en Barcelona y tengo que empezar con mi trabajo final de máster. Anteriormente he estudiado un grado en Lenguas Aplicadas en la Universidad Pompeu Fabra y uno de los perfiles que cursé fue el tecnológico con el que obtuve conocimientos de Python.

    Para mi TFM pensé en investigar sobre el uso del lenguaje en los diferentes canales de Internet. Buscando llegué a tu artículo con Paolo Rosso “El uso del lenguaje en los diferentes canales de Internet” y me interesó mucho. Además de interesarme, también me encantó como está escrito.

    Me gustaría seguir esa línea de investigación en mi TFM, pero tengo que encontrar la manera de enfocarlo. En concreto me ha llamado la atención el tema de Autor Profiling. También tengo ganas de volver a retomar mis conocimientos de Python.

    He llegado a la web http://pan.webis.de/ pero no me acaba de quedar claro en qué consiste el proyecto. ¿Me podrías informar? ¿Quién puede colaborar? ¿En qué consiste?

    Además, si me pudieras recomendar algún artículo o libro más sobre el tema te lo agradecería. Mientras tanto, voy a seguir navegando un poco por tu web. Estos artículos me parecen muy interesantes.

    Un saludo y muchas gracias de antemano,

    Sara de la Fuente

    • kico.rangel
      Aug 7, 2015

      Estimada Sara,

      Pedirte disculpas por la tardanza pero parece ser que algunos posts quedaron en el limbo.

      Te he enviado un correo por si todavía necesitas información al respecto o deseas comentar cualquier cosa.

      Gracias por tu contribución.

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *