(Español) Web Scraping con R: Los 40 Principales

Sorry, this entry is only available in European Spanish. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language. En el artículo sobre la colaboración entre cantantes surgía el problema de cómo recuperar la información necesaria para contestar a las preguntas planteadas. Concretamente, necesitábamos recuperar la lista de Los 40 Principales, semana a semana, desde el año 2010 y para 7 países diferentes. Teniendo en cuenta que cada año tiene 52 semanas y que del año 2017 recuperamos las últimas 31, el problema se traduce en la necesidad de recuperar desde un total de 2.401 páginas. De cada una de estas páginas, debíamos obtener la lista de los cantantes que firman cada uno de...

(Español) ¿Es la colaboración entre cantantes la fórmula del éxito?

Sorry, this entry is only available in European Spanish. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language. Recientemente Chayanne ha vuelto al ruedo de la música acompañado de Wisin, quien ya cantó previamente con Ozuna. Maluma ha cantado no hace mucho con Shakira, quién a su vez cantó previamente con Carlos Vives, y también recientemente con Prince Royce. De igual manera Jennifer López ha lanzado un potente tema y potencial éxito con Gente de Zona, a los cuales conocí cuando cantaron el éxito Bailando con Enrique Iglesias. Y por supuesto, no podía faltar Luis Fonsi cantando su éxito Despacito con Daddy Yankee o incluso con la súper-estrella Justin Bieber, entre otros...

Author Profiling y La Vanguardia

El otro día en unas charlas de doctorado un colega me comentó que un amigo suyo había hecho una entrevista para científico de datos en La Vanguardia y que una de las preguntas que le habían hecho tenía que ver con author profiling, concretamente, que cómo abordaría él el problema de identificar si el autor de un comentario es mujer u hombre. Interesante cuestión, y más interesante su respuesta pues dijo que tomando la última letra del nick (wtf!?!?!?). Bueno, lo primero de todo decir que ser (o querer ser) científico de datos no implica saber de todo, y menos de algo concreto como es el author profiling, y más concretamente de cómo identificar el sexo. Ser científico de datos implica más bien ser capaz de hacer ciencia con los datos, y eso implica muchas horas de...

Big Data y Social Media en Retrospectiva

Recuerdo cuando por el 2006, mientras realizaba mi master en PLN, que la tecnología en boga para indexación y búsqueda era Lucene. Era maravilloso, lo utilizábamos para todo, incluso para etiquetar farmacias de guardia. Recuerdo que poco después, sobre 2007/08, con el dominio de la tecnología y un poco intentando visionar el futuro, planteábamos a un responsable de proyectos de I+D de un instituto tecnológico la posibilidad de realizar un proyecto conjunto para el análisis de opinión en blogs. Curiosamente, dicho responsable pensaba que ese tema ya estaba muy explotado… El caso es que por aquel entonces el concepto de Social Media no estaba del todo asentado, y el de Big Data todavía no se conocía. Pero se empezaba a germinar el noviazgo entre ambos. Si lo...

Big Data y el Sesgo de Confirmación

Son muchos los heurísticos cognitivos y sus sesgos asociados, pero es quizás el sesgo de confirmación dentro de los heurísticos de disponibilidad uno de los que mayor riesgo de sufrir tenemos cuando tratamos con Big Data. Por aclarar términos, se suele considerar heurístico cognitivo al proceso de simplificar la selección, procesamiento y ajuste de la información para la toma de decisiones, y como sesgo cognitivo el efecto negativo que de ello se deriva. El heurístico de disponibilidad hace que simplifiquemos el análisis estratégico ligándolo a los datos disponibles, provocando un sesgo de confirmación que es la tendencia a encontrar esa información que justifica y confirma las creencias que tenemos a priori. Esto que viene de estudios sobre toma de decisiones...

La Escucha Inteligente y el Big Data: Cantidad vs. Calidad

Continuamente asociamos el término Big Data con tamaño o volumen de los datos, como si de competir por quien lo tiene más grande se tratara. Continuamente olvidamos el resto de dimensiones que hacen que el término Big Data se pueda aplicar a un conjunto de datos. Estas dimensiones vienen definidas por las 4 Vs (ó 5 Vs, dependiendo de la teoría). Estas son, además del volumen, la velociad con la que la información debe ser procesada (pensemos en un sistema de monitorización de constantes vitales), la variedad de esta información o cuan heterogénea es (qué mejor ejemplo que pensar en conversaciones en lenguaje natural), y sobre todo la más olvidada, el valor, el valor que tiene la información para el análisis que se está realizando, para los objetivos que se están...