Sun, 01 Aug 2010 03:16:43 +0200 Saltar al contenido

¿Eso es un bus en el Sena?

lainformacion.com

domingo, 1 de agosto de 2010 - 03:16 h

Internet

Google indexará la web en tiempo real

04/03/2010 | Wicho/Microsiervos

La adopción de un nuevo protocolo podría permitir al buscador mejorar enormemente la eficacia con la que actualiza el contenido de su base de datos

[ ]

Tal y como funciona Google ahora mismo va añadiendo contenidos a su motor de búsqueda mediante un programa del tipo de los llamados arañas de la web que va recorriendo una página web tras otra de forma automatizada y siguiendo los enlaces presentes en esta.

Es un método de fuerza bruta y funciona porque Google utiliza para ello un enorme número de ordenadores que se reparten el trabajo, pero en realidad, y como es lo normal con este tipo de métodos, es muy poco eficiente.

Por una parte, la araña de Google está continuamente revisitando sin necesidad páginas que no han cambiado, pues no tiene forma de saber si lo han hecho hasta que las lee y las compara con la versión ya almacenada.

Por otra, al haber tantas webs que visitar, y a pesar de todas las máquinas de las que dispone Google, simplemente no hay forma de visitar todas a la vez y hay que priorizar. De este modo, hay páginas que reciben la visita de Google varias veces al día, casi en tiempo real, mientras que otras son solo visitadas una vez cada varios días.

Pero, si tal y como se cuenta en Google Index to Go Real Time el buscador incorpora el protocolo PubSubHubbub todo podría cambiar radicalmente.

En este protocolo existen tres actores principales: Los publicadores, los suscriptores, y los nodos. Un suscriptor se hace con el feed RSS o Atom de la forma ya habitual, pero si este hace referencia a un nodo en lugar de suscribirse al canal que provee la página lo hace a través del nodo.

Y aquí radica la diferencia con el método tradicional en el que son los suscriptores los que tienen que comprobar periódicamente si el feed ha cambiado, ya que en el protocolo PubSubHubbub los nodos están diseñados para avisar a sus suscriptores de cuando se publica cualquier contenido nuevo, con lo que las actualizaciones se propagan en cuestión de segundos.

De este modo, si Google se suscribe a los nodos PubSubHubbub en los que las páginas publican sus actualizaciones tendría el trabajo hecho para recibir las notificaciones de qué páginas se actualizan prácticamente en tiempo real.

Esto no evitaría la necesidad de utilizar las arañas, que tendrían que seguir en funcionamiento paa descubrir sitios nuevos, pero permitiría mantener el contenido de información que indexa Google mucho más al día.

Además, al tratarse de un protocolo abierto, cualquier otro motor de búsqueda podría utilizar los mismos feeds para pasarse al tiempo real.

Eso sí, aún con la utiliazción de este protocolo seguiría sin solucionarse el problema de que ningún motor de búsqueda es capaz de indexar la llamada web oscura, formada entre otras cosas por páginas web que se construyen dinámicamente cuando se las consulta, páginas que no tienen enlaces entrantes, páginas protegidas mediante contraseñas, o aquellas que no contienen texto sino imágenes, vídeo, u otros formatos que los buscadores no entienden

Notificar un error

Un error cualquiera

Volver

Mensaje enviado

Leer más tarde

Se ha enviado Titulo de la noticia a email@example.org

No puedo leer la noticia ahora.

Enviadme la noticia a la siguiente dirección de correo electrónico, la leeré más tarde.

[ Se el primero en comentar esta noticia ]

Deja tu comentario

Lo último en Internet

Últimas fotos

Últimas noticias

Secciones

Siguenos también en: Facebook Twitter Flickr Google News Youtube iPhone

iplabel