ReCaptcha, te sorprenderás cuando sepas su finalidad oculta

Quizá por el nombre «Captcha» muchos no saben de que se trata pero si digo que es un sistema de seguridad en los formularios donde se introducen unas palabras, números, respuestas, (los hay de todo tipo) .. para asegurarse de que el que introduce los datos es un ser humano y no un «bot programado«, seguro que ya os suena más de lo que estoy hablando, si no «para muestra un botón»:

ReCaptcha

Tenemos claro también que hay sistemas y sistemas Captcha. Los hay de todos los colores en la actualidad, pero lo cierto es que cada vez se hacen más complicado de adivinar y uno se plantea:

«¿Si yo mismo no puedo adivinar lo que pone en este Captcha, podrá hacerlo un bot programado?».

Bueno quizá estas preguntas sean resueltas cuando te explique la verdadera finalidad del ReCaptcha, que no tiene mucho que ver con la seguridad, hablo de la «inteligencia colectiva».

Google compró el sistema ReCaptcha con el que no sólo tenían un sistema de seguridad para sus formularios sino que, sin que el usuario lo sepa (cuando termines de leer el post lo sabrás), está ayudando a digitalizar documentos antiguos o poco legibles gracias a la colaboración de miles de usuarios que cada día introducen el texto requerido en miles de formularios.

ReCaptcha

Si os fijáis, tenemos que introducir dos palabras en el formulario, una de ellas seguramente te cuesta más que la otra, pues es ésta palabra menos legible la que están queriendo digitalizar.

Para llegar a la palabra correcta, se ayudan del porcentaje de palabras iguales que los usuarios han introducido, con lo que tendremos una palabra bastante fiable. Y así con todas las que no se pueden leer correctamente, con lo que podremos conseguir, sin necesidad de gastar un duro y con la ayuda de Internet y los usuarios, digitalizar un documento al completo.

Esto ocurre en muchísimas ocasiones, en las que por ejemplo queremos digitalizar un texto de una noticia antigua de algún periódico y debido al mal estado y la mala impresión, no es suficiente con el sistema OCR del escaner por muy bueno que sea.

¿Cómo funciona ReCaptcha?

Fijaros como quedaría este documento antiguo escaneado:

ReCaptcha

En la imagen hay palabras que no se pueden leer del todo bien, por tanto el Software OCR reconoce esas palabras y las remarca.

ReCaptcha

Una vez localizadas y remarcadas son enviadas a la API de ReCaptcha para que a partir de ahora, los usuarios escriban lo que les parece que pone y con el tiempo tener una base bastante confiable de más del 95% que es cuando ya se declara una palabra como digitalizada.

Mira el resultado de la digitalización del documento después de todo el proceso ReCaptcha:

ReCaptcha

A partir de ahora seguro que mirarás con otros ojos el Recaptcha y si te ha interesado la noticia, puedes leer este PDF (inglés) donde explica todo al detalle.

Vía: Alt-Tab