miércoles, noviembre 12, 2008

¿Qué pasó con... Usenet?

Usenet nació hace ya muchos años (en 1979), y según la wikipedia era una especie de "ARPANET para «pobres»". Permitía la comunicación entre usuarios mediante servidores que sincronizaban sus mensajes (algo parecido a Fidonet), y estaba organizada en grupos de noticias bastante (bien o mal) estructurados.

En los tiempos de Internet, era únicamente necesario un cliente de Usenet (también conocida como newsgroups) para acceder a toda esa información. Yo frecuentaba algunos grupos del lenguaje de programación Delphi, y me sirvió de gran ayuda en numerosas ocasiones.

Con el tiempo apareció una empresa (deja.com) que preparó una interfaz web (Deja News) para acceder a consultar (e incluso intervenir en) los grupos de noticias sin necesidad de tener instalado cliente alguno. ¡Eso sí que fue una revolución!

Con el tiempo Google empezó a hacerse popular, y empezó a convertirse en el agujero-negro-que-todo-lo-atrae que es hoy día, y "se hizo" con el tinglao de deja.com, convirtiéndolo en el actual "Google Groups".

Pues bien, hoy he accedido a Google Groups para enviar feedback sobre una de las mejoras de Gmail Labs que consiste en avisar al usuario de que ha olvidado adjuntar archivos, basándose el el texto del email, e informarles de que funciona «regular», puesto que atiende a palabras como "adjuntado" pero no "adjunto", o "envío", que es más común. Total (que me enrollo como las persianas), que he recordado el origen de Google Groups, me ha asaltado la e-melancolía, y me he ido al Internet Wayback Machine (http://web.archive.org) a ver cómo era Deja News y oh! sorpresa!, me encuentro con que tiene un archivo robots.txt que impide que el Web Archive almacene su estado, y lo que es peor, que no se pueda consultar su pasado.

Me gustaría saber si es Google el responsable de esta medida, o si Deja News ya la tenía implementada, porque tengo la impresión de que Google cada vez es más evil, y menos cool.

Etiquetas: , , , ,


Comments:
Hola Jose, el archivo robots.txt es solo un archivo de texto donde los "spider, Robots,scrapers,crawlers o como prefieras llamarlos revisan si el propiertario del sitio esta INTERESADO en que la informacion o parte de la informacion del sitio web sea indexada.

Logicamente, Interesado no significa prohibido, cualquier spider puede hacer caso omiso a ese archivo e indexar cualquier informacion que este accesible.

si google quisiera evitar que se indexe informacion automaticamente a traves de algunos spider, entonces hubiera usado CAPTHAS que son mas efectivo, aunque algunos robot ya vienen equipados con OCR , pero eso ya es otro tema.

Saludos :]
 
Hola Anónimo, gracias por la explicación sobre lo que es el archivo robots.txt, aunque ya conocía su funcionamiento.

Evidentemente la existencia del archivo no implica el cumplimiento de sus normas, pero web.archive.org lo respeta a rajatabla, motivo por el que ya no hay huella alguna de deja.com. Eso es lo que no me gusta, y e lo que expongo, nada más.
 
Publicar un comentario en la entrada

<< Home

This page is powered by Blogger. Isn't yours?