AVISO: Utilizamos cookies propias y de terceros para mejorar nuestros servicios y mostrarle publicidad relacionada con sus preferencias mediante el análisis de sus hábitos de navegación. Si continua navegando, consideramos que acepta su uso. Puede cambiar la configuración de su navegador u obtener más información aquí.

lainformacion.com

viernes, 19/12/14 - 13: 43 h

internet

Google digitalizará cinco millones de libros al año usando los 'captcha'

Gorka Ramos

viernes, 23/08/13 - 09:00

[ ]
  • Cada día 200 millones de internautas descifran las palabras de seguridad de registro en internet y ahora le dan otra utilidad.
  • La iniciativa reCAPTCHA estima que los 10 segundos que cada persona destina resultan en 150.000 horas de trabajo diarias.
El sistema de reconocimiento óptico de caracteres usado para digitalizar textos no es perfecto.

Hasta hace poco, los 'captcha' no tenían otra utilidad más allá de evitar fraudes por internet. Las palabras que te obligan a escribir cada vez que quieres registrarte en un sitio buscan diferenciar a usuarios humanos de posibles robots informáticos que quieran introducir spam o boicotear algún servicio.

Sin embargo, uno de los inventores de la herramienta ha querido que los 'captcha' tenga algo más de utilidad. Luis von Ahn pensó que millones de internautas resolviendo palabras cada día pueden traducirse en miles de libros digitalizados y unos cinco millones de libros anuales.

[Te interesa: Yahoo genera más tráfico que Google en EEUU por primera vez en cinco años]

La iniciativa se llama 'reCAPTCHA' y como explica su página “es un servicio gratuito que ayuda a digitalizar libros o periódicos”. Según la organización, cada día se resuelven unos 200 millones de 'captchas' alrededor del mundo y aunque el tiempo que cada persona utiliza es ínfimo (unos diez segundos) el agregado supone la friolera de 150.000 horas diarias.

El proceso de digitalización pasa por el escaneado del original. Las imágenes que resultan de ese primer proceso son tratadas por un sistema de reconocimiento óptico de caracteres (OCR por sus siglas en inglés). Y como nada es perfecto, los ordenadores tienen problemas con las palabras menos usadas.

[Te interesa: España es el país europeo con más ataques a los ‘gamers’]

Para asegurarse de que eres humano al 100%, los 'captcha' contendrán dos palabras, una que el ordenador ya reconoce y otra que no. En el momento en el que averigües la primera, el sistema sabrá que puede fiarse de ti en la segunda. Por ahora, la herramienta se está utilizando para digitalizar números antiguos del New York Times y libros para Google Books.

Destacamos

Suscríbete al boletín de la información

La mejor información a diario en tu correo.

Lo más visto en Cultura

Secciones

Sobre nosotros

Siguenos también en: Facebook Twitter Flickr Google News YouTube

iplabel