La trampa de la muestra estadística

trampaLos estudios estadísticos suelen centrarse generalmente en datos muestrales, esto es, a diferencia de los datos censales que en principio incorporan al total de la población de estudio, los datos muestrales seleccionan una parte o muestra de dicha población. Los estudios realizados sobre datos abiertos obtenidos de Internet y las redes sociales, como la escucha activa, son estudios muestrales por tanto y cuanto los datos se obtienen como muestras representadas por unas claves de búsqueda. Es decir, si tenemos interés en analizar un tema, seleccionamos las palabras clave que pueden ser representativas de ese tema y recuperamos el máximo posible (en algunos casos todo) lo relativo a esas palabras clave en los canales que nos interesan, por ejemplo, Twitter. Pero la selección de esas palabras clave son las que determinan que el estudio es muestral y no censal, ya que no estamos accediendo al total de las conversaciones generadas en ese canal, lo que equivaldría a tener acceso completo a la base de datos de Twitter, sino  a las representadas por esas palabras clave.

Por lo tanto la selección correcta de las palabras clave es determinante. Una selección incorrecta nos puede generar una muestra incompleta, desequilibrada o sesgada, y por lo tanto las conclusiones obtenidas pueden estar sesgadas, pese a que todo el procedimiento analítico sea riguroso y correcto. Es por ello que las conclusiones siempre deben ir condicionadas a la selección de la muestra y por ello su generalización debe ser realizada con cuidado, sobre todo si depende de dicha selección.

Por poner un ejemplo, hace pocos días fue la final de la champions. En Autoritas  realizamos un estudio sobre esta final de la champions basado en la lectura del hashtag propuesto por TVE, #FinalChampions. Con ello estamos decidiendo que nuestra muestra la tomaremos en base a todos los usuarios que utilicen este hashtag durante la final, y por lo tanto las conclusiones obtenidas se limitan a los usuarios que utilizaron este hashtag y no a todos los usuarios que pudieron hablar de la final. A partir de esta muestra, se analiza el contenido de los tuits y se obtiene el número de menciones que se realizan a ambos equipos, así como a diferentes entidades de ambos equipos y otras cosas. Es decir, la utilización del hashtag sirve de método de muestreo, pero no como variable de estudio. Con este método podemos concluir, entre otras cosas, que los usuarios que utilizaron este hashtag hablaron más del Atlético que del Real Madrid, y la generalización que podamos hacer estará en función de la confianza que se tenga en que el método de muestreo, conversación en torno a #FinalChampions, sea suficientemente representativo del total de la conversación referente a la final de la champions.

En cambio, leo hace poco un artículo que concluye que el Real Madrid también gana la champions en Twitter al Atlético, y para ello se basa en recuperar una muestra de la conversación producida en base a los dos hashtags oficiales propuestos por sendos equipos: #APorLADecima y #CorajeYCorazon. Pero en este caso el análisis se basa en contar el número de tuits emitidos para cada uno de los hashtags,  concluyendo que los usuarios han hablado más del Real Madrid que del Atlético de Madrid. Esto es una trampa estadística, se está utilizando la variable de muestreo como variable de análisis y se está generalizando una conclusión que viene sesgada a priori por el método. La conclusión correcta es que los usuarios de Twitter que han visto el partido han utilizado más el hashtag #APorLADecima que el hashtag #CorajeYCorazon, y no que los usuarios de Twitter que han visto el partido han hablado más de un equipo que del otro.

Hay que tener cuidado con este tipo de trampas estadísticas porque pueden cambiar el sentido de un estudio de este tipo, es decir, en lugar de descubrir una información y explicar este descubrimiento mediante evidencias estadísticas, lo que hace es utilizar el argumento estadístico para justificar unas conclusiones que en muchos casos son oportunistas y convenidas a priori.

 

Submit a Comment

Your email address will not be published. Required fields are marked *