Long tail

Long Tail fue una “expresión acuñada por Chris Anderson en un artículo de la revista Wired de octubre de 2004 para describir determinados tipos de negocios y modelos económicos tales como Amazon.com o Netflix” es como empieza el artículo en español de la Wikipedia dedicado a este término, pero este no es un término nuevo ni aplicable en exclusiva a modelos económicos.

Como bien dice la Wikipedia, se basa en las leyes de potencias históricamente detectadas en diferentes ámbitos de estudio, como la ley de Zipf en lingüística o la ley de Pareto en economía.

Pero veamos un ejemplo práctico que ilustre hasta el punto que este tipo de leyes, y por ende este tipo de distribuciones de larga cola, aparecen en multitud de situaciones y hechos diferentes, y tienen aplicaciones interesantes más allá de las tradicionales.

Nuestros ejemplos se basan en el análisis de una muestra de 23.873.371 tuits obtenidos con la herramienta Cosmos para un total de 925.725 usuarios únicos.

El primer ejemplo a analizar es el número de tuits emitidos por los usuarios, distribución que varía entre 1 y 42.853 tuits (lo que habla este último!). A continuación se presenta la distribución:

 

Más que una long tail parece una caída en picado, hagamos un poco de zoom:

La distribución presenta un máximo de 515.150 usuarios que han emitido un único tuit, descendiendo rápidamente hasta a penas una decena de usuarios que emiten más de 150 tuits, y a menos de 5 usuarios emitiendo más de 1.000 tuits, descendiendo de manera regular hasta un único usuario. Claramente se ve un descenso pronunciado  con una larga cola. La distribución de usuarios/número de tuits es continua hasta aproximadamente los 3.000 tuits por usuario, momento a partir del cual se empiezan a distanciar el número de tuits que emiten los usuarios, desmarcándose claramente los usuarios que mayor número de tuits han emitido.

Si hacemos aún mayor zoom para ver el principio de la larga cola vemos lo siguiente:

Como bien es sabido, toda distribución de larga cola que se represente en notación log-log debe presentar una distribución de apariencia lineal, tal y como se comprueba a continuación para este ejemplo:

 

Como decíamos, el usuario que más actividad ha tenido ha emitido un total de 42.853 tuits,  y para que os hagáis una idea sin dar listas de usuarios (que ya me gustaría!) puedo decir que la cuenta waze_es, ha emitido un total de 24.410, o que nuestro compañero César Calderón, espléndido tuitero, ¡¡sólo ha emitido 116 tuits en el periodo analizado!!

En el anterior ejemplo hablamos del número de tuits emitidos por usuario, veámos en este el número de usuarios mencionados dentro de un tuit, distribución que varía entre 0 y 24 usuarios mencionados.

La distribución comienza con 9.655.061 de tuits que no mencionan a ningún otro usuario, seguido por 11.158.172 de tuits que mencionan a un usuario y disminuyendo rápidamente hasta menos de una decena de tuits que nombran a más de 15 usuarios.

La distribución es tal como la siguiente:

Como se puede apreciar su forma se corresponde bastante con una long tail, aunque claro, en un rango de 0 a 24, es difícil llegar a construir una larga cola. Pero veámos la distribución log-log a ver si muestra una apariencia lineal, lo que nos puede dar bastante certeza de lo anterior:

Aunque con cierta curvatura, asemeja bastante a una representación lineal.

Sigamos en esta línea, comprobemos ahora la distribución del número de hashtags que los usuarios utilizan en sus tuits. En nuestro conjunto de datos, comprobamos que estos varían entre 0 y 44 hashtags por tuit. Sí, 44, una brutalidad teniendo en cuenta que el total de caracteres (teórico) es de 140, pero veremos un ejemplo.

Comenzamos con un total de 19.708.047 de tuits que no incorporan ningún hashtag, seguido de 3.243.606 que incorporan uno y disminuyendo de manera exponencial hasta menos de una decena de tuits que incorporan más de 20 hashtags.

La distribución se visualiza del siguiente modo:

Hagamos un poco de zoom para verlo mejor:

Y de nuevo, comprobemos si la distribución log-log tiene una apariencia lineal:

No se despinta mucho, teniendo en cuenta de nuevo esa limitación intrínseca del número de caracteres que presenta Twitter.

Como os decía, que un tuit tenga 44 hashtags es curioso, pero aquí os dejo un par de ejemplos de esos tuits curiosos…

El siguiente es todo inventiva:

#u #n #b #u #e #n #t #w #e #e #t #n #e #c #e #s #i #t #a #l #l #e #v #a #r #a #l #g #ú #n #q #u #e #o #t #r #o #h #a #s #h #t #a #g

Y al siguiente usuario le vuelve loco la fórmula uno!

#F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1 #F1

¿Y qué pasa con los links por tuit? Pues veámos, la distribución varía en un rango entre 0 y 7, por lo que discernir la larga cola va a ser más complicado, si es que la cumple:

 

En este caso la tabla de datos es muy corta, hablamos de únicamente 7 filas, por lo que vamos a representarla aquí para que se aprecien mejor estos números, mostrando el número de enlaces seguido del número de usuarios que los han incorporado:

0 – 19.205.548

1 – 4.545.233

2 – 115.929

3 – 5.293

4 – 922

5 – 287

6 – 155

7 – 4

Complicado, veámos la representación log-log:

Parece que sí sigue una representación bastante parecida a la lineal.

He dejado para el final dos características de los tuits que mejor deberían adaptarse a una distribución de larga cola, principalmente por su relación con la ley de Zipf anteriormente citada, pero que en Twitter tiene afectaciones colaterales que pueden sorprendernos, derivadas de la limitación en el máximo número de caracteres.

Veámos el primer caso, el número de caracteres utilizados en los tuits.

Antes de pintar la distribución, podríamos pensar que por aprovechamiento de espacio o por optimización de recursos o por cualquier otra teoría de maximización de la utilidad, el número de caracteres utilizados podría seguir una distribución de larga cola a la inversa, es decir, el mayor número de usuarios estaría rondando ese máximo limitado de 140 caracteres, disminuyendo de manera exponencial hasta convertirse en una larga cola según disminuímos el número de caracteres utilizados.

Pues bien, lo que primero nos sorprende es el rango de caracteres utilizados, dónde esperamos algo entre 0 y 140, y nos encontramos algo entre 0 y 278!! ¿Cómo es posible, si el máximo es 140? Pues aquí os dejo un ejemplo de una persona súmamente curiosa:

?????????????????????????????????????????????????????????

?????????????????????????????????????????????????????????

?????????????????????????????????????????????????????????

?????????????????????????????????????????????????????????

??????????????????????????????????????????????????

Podéis contarlos, os recomiendo que no lo hagáis a mano…

La distribución es la siguiente:

Una distribución muy interesante, porque es linealmente creciente desde los 0 hasta los 40 caracteres, comenzando a decrecer también de manera lineal hasta los 115 caracteres, momento a partir del cual tiene un crecimiento exponencial inverso al presentado en una long tail (como esperábamos o la intuición nos decía) hasta los 140 caracteres, número de caracteres usado por el máximo de tuits, un total de 681.156 tuits.

En ese punto existe una distribución semejante a la normal en torno a los 153 caracteres con una desviación de unos 10 caracteres y una larga cola de tuits que tienen un número claramente fuera del rango de los permitidos por twitter.

Veámos la distribución log-log por si nos aclara algo:

Si entrar en mayor detalle es complicado vislumbrar secciones completas, pero me puedo aventurar (de manera muy aventurada) a determinar un breve indicio de long tail al revés en lo que sería en torno a los 140 caracteres, como comentaba anteriormente y como muestro en el zoom de la siguiente imagen:

Una distribución normal en torno a los 153 caracteres representada en la escala log-log por una campana muy estrecha y pronunciada, como se muestra a continuación:

 

Y una posible long tail, aunque con una representación muy dispersa como para poder asegurarlo, en el rango ese imposible de los más de 180 caracteres:

Veámos qué sucede con el número de palabras utilizadas en los tuits, que varían entre 0 y 40. La distribución es la siguiente:

Y su representación log-log:

 

Lo que las evidencias parecen apuntar  es que tanto la cantidad de caracteres como de palabras utilizadas en los tuits tiene mayor relación con la limitación intrínseca de Twitter que con las leyes de potencias, concretamente la ley de Zipf, aplicadas a otro tipo de textos.

Por lo general, este post muestra algunos ejemplos de distribución de resultados en forma de larga cola y otros que se ven influenciados por restricciones a la libertad de expresión en toda su expresión.

Pero al margen de la curiosidad que generan este tipo de distribuciones, ¿cómo podemos aplicar este conocimiento en casos como la escucha activa?

Pues viendo algunos de los ejemplos mostrados arriba se pueden obtener ciertas intuiciones que sirven para realizar una selección de contenidos para su procesamiento semántico, desechando otros que a priori presentan características propias de contenidos basura.

Y como todo principiante sabe, en cualquier proyecto de minería el 80-90% del tiempo/capacidad/coste se dedica a la limpieza de basura…

Por ejemplo, siguiendo la distribución de hashtags vemos rápidamente que lo que empieza en la larga cola comienzan a ser tuits basura de usuarios que utilizan el hashtag sin significado semántico de lo que quieren expresar, lo que nos permite eliminar esos tuits del procesamiento realizado.

O siguiendo la larga cola del número de tuits generados por usuario, nos permite centrar el estudio en aquellos que se encuentran entre los más activos, o no, dependiendo de nuestro objetivo. Tanto más si en lugar de hablar de cantidad hablamos de influencia.

En definitiva, el análisis de long tail nos permite  marcar un umbral de corte, tan apreciado en análisis de redes, para utilizarlo de la manera que mejor se pueda adaptar a las necesidades del problema que estemos tratando.

En próximos posts analizaremos características  intrínsecas del lenguaje utilizado, como las LIWC, que nos permitirán investigar en características como el género o el rango de edad de los usuarios generadores de contenidos, o las emociones expresadas en los textos, enlazando con la serie de detección de personalidad, y con algunas de las capacidades semánticas de Cosmos.

A continuación os dejo un link a los ficheros utilizados para generar las gráficas (fácilmente reproducibles con GNUPlot) por si alguien tiene interés en realizar algún otro análisis con la única petición de que se nombre su autoría y se compartan los resultados:

Tuits por usuario

Usuarios mencionados por tuit

Hashtags por tuit

Links por tuit

Caracteres por tuit

Palabras por tuit

 

PD: Dedico este post a un par de mis compañeros del master de Consultoría Estratégica que opinan que mis posts son cortos, ligeros y amenos de leer. Va por vosotros!! ;-P

 

Submit a Comment

Your email address will not be published. Required fields are marked *