reCAPTCHA

reCAPTCHA est un dispositif mettant à profit les capacités de reconnaissance des utilisateurs humains mobilisées par les tests Captcha, pour perfectionner par la même occasion le processus de numérisation de livres, à l'endroit où échouent...



Catégories :

Vision artificielle - Technologie web - Sécurité informatique - Spam - Sigle de 9 caractères ou plus

Page(s) en rapport avec ce sujet :

  • La gestion des droits et utilisateur dans Symfony - Symfony : Créer un site web avec..... Nous allons "checkouter" le projet reCaptcha Symfony dans notre répertoire plugins/... Notre plugin reCaptcha est prêt à être utilisé.... (source : lafermeduweb)
  • ... Si l'autre mot, connu de ReCaptcha, est bien recopié, ... Mot par mot, ReCaptcha espère ainsi aider au projet de la... Il n'y a aucune raison de pénaliser l'utilisateur qui veut mettre un commentaire sur un blog.... (source : ecrans)
Logo du reCAPTCHA.
Un exemple de reCAPTCHA : les mots à reconnaître sont «following» et «finding».

reCAPTCHA est un dispositif mettant à profit les capacités de reconnaissance des utilisateurs humains mobilisées par les tests Captcha, pour perfectionner par la même occasion le processus de numérisation de livres, à l'endroit où échouent les dispositifs de reconnaissance optique de caractères (OCR). Le dispositif a été mis au point par des chercheurs de l'Université Carnegie-Mellon[1], [2].

L'idée est de rendre utile une tâche qui peut sembler rébarbative. La technique tient du crowdsourcing.

Concrètement, comparé à un processus habituel d'authentification par Captcha, ce ne sont pas un mais deux mots qui sont présentés à l'utilisateur. L'un d'eux est un Captcha habituel, dont la solution est donc connue de manière certaine ; seul l'autre est issu de la numérisation d'un ouvrage : c'est celui dont la solution est incertaine ou alors inconnue et que l'utilisateur va aider à résoudre.

Le dispositif part du principe que si les utilisateurs résolvent correctement le Captcha habituel, alors ils ont aussi déchiffré correctement le mot inconnu. Néanmoins, un mot n'est reconnu comme vraiment reconnu que si plusieurs utilisateurs l'ont vérifié en obtenant le même résultat.

Les mots à reconnaître sont issus de numérisations opérées par Internet Archive sur des ouvrages anciens appartenant au domaine public. Ils sont apportés lors des requêtes par le site Web du projet reCAPTCHA[3], issu du projet CAPTCHA originel, tous deux mis en place par l'école d'informatique de l'Université Carnegie Mellon, dans la ville américaine de Pittsburgh. Ceci est réalisé au moyen d'une API écrite en, dans laquelle le serveur rappelle reCAPTCHA après que la requête a été soumise. Le projet reCAPTCHA propose des bibliothèques pour différents langages de programmation pour favoriser le processus. Le service est gratuit, à l'exception des utilisateurs qui auraient besoin d'une bande passante trop élevée.

L'objectif de reCAPTCHA est le même que celui poursuivi par Distributed Proofreaders, un autre projet visant aussi à valider l'OCR par des opérateurs humains, mais de manière conventionnelle, sans avoir recours aux Captchas.

Histoire

En 2009, le projet reCAPTCHA est à même de numériser les archives du New York Times[4]. En date de septembre 2009, à peu près 20 ans d'archives ont été numérisés et les responsables du projet espèrent avoir totalement numérisé les 110 autres années avant la fin de 2010. [5] Le 17 Septembre 2009, Google annonce l'acquisition de la société ReCAPTCHA. Celle-ci sera surtout utilisée dans le processus de numérisation d'ouvrage Google Books.

Notes et références

  1. (en) Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham and Manuel Blum, «reCAPTCHA : Human-Based Character Recognition via Web Security Measures», dans Science, vol.  321, 2008, p.  1465-1468 [[pdf] texte intégral lien DOI] 
  2. (en) The reCAPTCHA project, partie du Carnegie Mellon School of Computer Science de l'Université Carnegie-Mellon
  3. (en) recaptcha. net, site du projet reCAPTCHA.
  4. (en) Learn more, reCAPTCHA. net. Consulté le 2008-11-23
  5. (en) Luis von Ahn.  NOVA ScienceNow s04e01 [Television production].  Consulté le 2009-07-06.  La scène se produit à 46 :58.  “The New York Times has this huge archive, over 130 years of newspaper archive there. And we've done maybe about 20 years so far of The New York Times in the last few months and I believe we're going to be done next year by just having people do a word at a time.

Voir aussi

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/ReCAPTCHA.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu