Tiempo Real vs. Tiempo Asumible

conejoblancoMuchos son los términos técnicos que se están incorporando en el vocabulario del día a día de los no-técnicos, como en este caso el del Tiempo Real. Este concepto se oye cada vez más en el mundo del análisis del Social Media y el BigData (otro vocablo ampliamente utilizado y que ya traté en ¿Cosmos es Big Data?). Grandes consultores vaticinan a boca llena que al igual que la Web ha evolucionado hacia redes sociales en Tiempo Real como Twitter, el análisis de las mismas se acerca cada vez más a ello. Pero, ¿qué es en realidad el Tiempo Real?

Cuando la mayoría de la gente oye el término Tiempo Real piensa en enterarse al momento de algo sucediendo en este preciso momento, por ejemplo, considera Tiempo Real una noticia que se está narrando en el mismo momento que se está produciendo, sin demora, o con una demora mínima de segundos en la retransmisión. En realidad, consideramos que es Tiempo Real porque sucede en una escala de tiempo dentro de lo que podemos considerar aceptable. ¿Seguiría siendo tiempo real si tardase 5 minutos en recibirse esta información? Posiblemente si se tratara de una información en diferido podríamos admitir un poco de retraso. Pero, y si fuera una videoconferencia con un corresponsal, ¿podríamos admitir un retraso de cinco minutos entre el tiempo que se efectúa una pregunta y el tiempo que se da una respuesta? No, no lo consideraríamos Tiempo Real. Consideraríamos que algo funciona mal.

Cuando hablamos de Tiempo Real referido a sistemas de monitorización (ojo, ya sabéis que no me gusta el término monitorización pero aquí sí que lo empleo porque es el sentido que le quiero dar), la mayoría de gente piensa en un sistema que captura todo lo que sucede en el mismo momento en que sucede. Bueno, se puede admitir un pequeño retraso. Pero, ¿qué retraso? Pues va a depender mucho del canal, un usuario va a considerar tolerable que una noticia en prensa tarde en entrar 10 minutos desde que se publicó pero no así lo va a tolerar cuando se trata de un tuit, que espera que entre en el mismo instante en que se generó. Pero en cambio va a poder tolerar que una entrada de un blog tarde varias horas. Bueno, siempre y cuando no le genere una crisis…

Pero entonces, el Tiempo Real está adquiriendo un matiz subjetivo que va a depender de factores como el canal o la necesidad de información que se tenga…  y es que en realidad cuando en sistemas de control (sí, de los sistemas de control y de la ingeniería de control proviene este término) se habla de Tiempo Real se está indicando que el sistema funciona bajo una parametrización y escala de tiempo preestablecida. Esto es, indica que el sistema está sujeto a trabajar restringido por una serie de variables entre las cuales se encuentra el tiempo, y que la escala sobre la que va a tener que dar respuesta a variaciones en las variables  va a estar en la misma escala que el entorno en el que se encuentra, o escala real.

Pero hasta aquí no se ha hablado de inmediatez, se ha hablado de escala de tiempo restringida a una necesidad prefijada por quién configura el sistema, es decir, un sistema de monitorización de Twitter claramente es dependiente de la variable tiempo y si la restricción impuesta es que no pasen más de 3 segundos desde que se produce un tuit y se captura se cumple siempre se puede hablar de que trabaja en Tiempo Real. Pero entonces, un sistema de análisis que indique que una vez capturada la información es capaz de procesarla y extraer el conocimiento para el que está configurado en un tiempo no superior a 5 minutos, ¿es un sistema de análisis en Tiempo Real? Según la definición, . La pregunta más bien debería ser, ¿un sistema que tarda no más de 5 minutos en analizar y extraer conocimiento de un contenido, es un sistema apto para la restricción temporal que requieren los objetivos de mi análisis?, es decir,  ¿trabaja en un Tiempo Asumible para su cometido?

Esto está dentro de la esencia del Big Data, que no sólo viene determinado por el tamaño sino la velocidad de tratamiento de los datos (entre otros), y aquí os dejo unas cifras extraídas de la competición PAN-AP 2013 para que os hagáis las siguientes preguntas.

  • ¿Qué sistema de los siguientes trabaja en Tiempo Real?
  • ¿Qué sistema de los siguientes trabaja en Tiempo Asumible?
  • ¿Cuál de ellos se podría considerar Big Data?
  • ¿Comprometerías la calidad en favor de la velocidad o viceversa?

DATOS A PROCESAR: 25.440 documentos
TAREA: Determinar género y edad de los autores

SISTEMA TIEMPO NECESARIO  RESULTADO (accuracy)
1 615.347 ms 32,68%
2 1.729.618 ms 34,20%
3 2.298.561 ms 38,13%
4 3.241.899 ms 28,40%
5 3.734.665 ms 28,43%
6 3.940.310 ms 24,50%
7 9.559.554 ms 31,14%
8 11.684.955 ms 25,64%
9 16.761.536 ms 28,14%
10 17.511.633 ms 35,08%
11 18.285.830 ms 31,15%
12 18.476.373 ms 27,85%
13 22.914.419 ms 15,74%
14 23.612.726 ms 32,92%
15 24.558.035 ms 28,16%
16 64.350.734 ms 24,71%
17 383.821.541 ms 38,94%
18 448.406.705 ms 23,95%
19 577.144.695 ms 34,88%
20 855.252.000 ms 7,41%
21 1.018.000.000 ms 36,77%

 

El más rápido quedó en 8ª posición y el más lento en 3ª, con una diferencia en accuracy de 4,11% y en tiempo de más de 11 días (el más rápido tarda a penas 10  minutos y el más lento más de 11 días).

Submit a Comment

Your email address will not be published. Required fields are marked *