Cifras del análisis de las emociones en Facebook

En el último post sobre Análisis de emociones en Facebook planteaba las tres temáticas sobre las que efectuar el estudio y las páginas de las que recuperar los comentarios. El planteamiento ha sido recuperar los comentarios realizados en los últimos 1.000 posts de cuatro páginas de cada una de las tres temáticas propuestas: política, fútbol y personajes públicos. A continuación muestro las cifras y unos breves comentarios de esta recuperación previa: TEMÁTICA PÁGINA Nº POSTS Nº COMENTARIOS POLÍTICA PSOE 1.000 22.096 PP 1.000 4.590 IU 1.002 2.867 UPYD (ESTUDIANTES) 593 135 FÚTBOL REAL MADRID 1.125 1.035 BARCELONA FC 1.002 1.520 VALENCIA CF 1.003 463 ATHLETIC BILBAO 560 444 PERSONAJES PÚBLICOS BELÉN ESTEBAN 1.000 12.191 SANTIAGO SEGURA 1.000 99 DAVID BISBAL 1.000...

Análisis de las emociones en Facebook

Siguiendo la línea de investigación del Author Profiling descrita en anteriores artículos y dando un paso más en mi doctorado y en la línea de investigación más básica de Cosmos, estoy preparando una batería de experimentos relacionados con la obtención de las emociones a partir de textos escritos. Y para todos los que estamos metidos de lleno en el mundo de los social media, poca duda podemos tener que uno de los sitios dónde más emociones se suelen expresar es en los comentarios realizados en Facebook. Eligiendo este canal, he optado por dividir en tres las temáticas, tomando una muestra de cuatro páginas significativas para cada una de las temáticas, y extrayendo todos los comentarios efectuados por los usuarios en ellas. En breve publicaré las cifras y...

Datos de entrenamiento de la competición sobre Author Profiling #PAN 2013

Hemos liberados los datos de entrenamiento para la tarea sobre Author Profiling de la competición PAN 2013 en la que el objetivo es la detección del género y el rango de edad al que pertenecen los autores a partir de sus textos escritos. Los datos de entrenamiento vienen etiquetados por: IDIOMA: Inglés y Castellano GÉNERO: Masculino y Femenino RANGO DE EDAD: 10s: Rango de edad entre 13 y 17 años 20s: Rango de edad entre 23 y 27 años 30s: Rango de edad entre 33 y 47 años El corpus en inglés incorpora 236.000 autores, con 413.564 conversaciones y 180.809.187 palabras. El corpus en castellano incorpora 75.900 autores, con 126.453 conversaciones y 21.824.198 palabras, distribuidos de la siguiente manera: LANG AGE GROUP GENDER N. OF AUTHORS EN 10s MALE 8.600 FEMALE...

Egogramas y de cómo predecir la personalidad de los internautas (III)

En la primera de las entragas del mismo nombre se presentaba uno de los modelos teóricos más aceptados cuando se trata de estudiar la personalidad, el modelo de los Big Five, y en la segunda entrega se presentaba algunos de los métodos experimentales de recolección de información desde textos para la construcción de estos modelos. En esta entrega se describe un modelo complementario a los Big Five y que sirve como herramienta para realizar estudios en este ámbito, los Egogramas. Originalmente desarrollado por Jack Dusay en los años 70 en el campo del Análisis Transaccional, un egograma se define como “un gráfico de barras que muestra la relación entre cada rasgo de la personalidad con el resto y la cantidad de energía psicológica que emana hacia el...

CfP PAN 2013

——————————————————————————- PAN @ CLEF: Call for Participation ——————————————————————————- We invite you to take part in one of the following evaluations: 1. Plagiarism Detection — Given a document, is it an original? This task is divided into source retrieval and text alignment. Source retrieval is about searching for likely sources of a suspicious document. Text alignment is about matching passages of reused text between documents. 2. Author...

Cómo predecir la personalidad de los internautas (II)

En el anterior artículo dedicado a este tema hablamos de los Big Five como modelo psicológico base para definir los rasgos de personalidad, pero nos quedó pendiente enlazar cómo pueden detectarse estos rasgos a partir de lo que los usuarios escriben. El trabajo realizado en textos escritos se ha basado principalmente en estos Big Five (en ocasiones mezclado o no con el modelo de Egogramas que describiremos en otro artículo), empleando diferentes tipos de características para recopilar la información para la construcción del modelo. Algunos de los más usados son: Function words Systemic Functional Grammar Analysis Características derivadas de LIWC Function Words Las palabras de función (function words) son palabras con muy poco significado léxico o con un...