En Abril de 2010, la Biblioteca del Congreso anunció la adquisición de todos los mensajes públicos de la red social Twitter, emitidos desde su nacimiento en marzo de 2006.
En aquel momento, el reto consistía en gestionar un flujo de más de 50 millones de mensajes diarios. En junio de 2011, el número ha pasado a ser más de 140 millones.
Total: varios petabytes y un trabajo colosal.
Martha Anderson (National Digital Information Infrastructure and Preservation Program) y Leslie Johnston (NDIIP's Technical Architecture Initiatives) están estudiando cómo poner en marcha las herramientas que les permitan almacenar y consultar los tuits, que contienen bastante más información que los aparentes 140 caracteres de texto (fecha, hora, seguidores, geodatos...).
Por ejemplo, muchas veces los tuits contienen únicamente una URL reducida, la dirección de un sitio web resumida mediante bit.ly ou tinyurl. Al menos en este punto, las responsables del proyecto cuentan con la ayuda de Internet Archive y la iniciativa 301works para conservar el significado de estas direcciones.
Un equipo más amplio se reunirá durante el verano de 2011 para establecer un plan de trabajo. Un primer acceso a los investigadores se pondrá en marcha durante los 4-5 meses siguientes. Aún está por determinar la tecnología y la Biblioteca está realizando pruebas con combinaciones de Hive, ElasticSearch, Pig, Elephant-bird, HBase, and Hadoop.
No hay comentarios:
Publicar un comentario