Reconnaissance de l'écriture manuscrite

La reconnaissance de l'écriture manuscrite est un traitement informatique qui a pour but de traduire un texte écrit en un texte codé numériquement.



Catégories :

Gestion électronique de documents - Traitement d'image - Traitement automatique du langage naturel

Page(s) en rapport avec ce sujet :

  • Traitement d'images et reconnaissance de formes 1988 Surveillance..... La reconnaissance de l'écriture manuscrite est une branche de la reconnaissance des ... (source : epcity)
  • La reconnaissance de l'écriture manuscrite est un problème qui, ..... le rattachement du traitement de l'image et de la reconnaissance de forme à la... (source : perso.telecom-paristech)
  • La reconnaissance de l'écriture manuscrite est une branche de la... VERONIS J. et GUIMIER DE NEEF E. (2006), «Le traitement des nouvelles formes de ... (source : arxiv)

La reconnaissance de l'écriture manuscrite est un traitement informatique qui a pour but de traduire un texte écrit en un texte codé numériquement.

On peut distinguer deux reconnaissances différentes, avec des problématiques et des solutions différentes :

  1. la reconnaissance en-ligne ;
  2. la reconnaissance hors-ligne.
Reconnaissance en-ligne et hors-ligne.

La reconnaissance de l'écriture manuscrite fait appel à la reconnaissance de forme, ainsi qu'au traitement automatique du langage naturel. Cela veut dire que le dispositif, tout comme le cerveau humain, reconnaît des mots et des phrases existant dans un langage connu plutôt qu'une succession de caractères. Ceci perfectionne largement la robustesse.

Reconnaissance hors-ligne

La reconnaissance hors-ligne travaille sur un instantané d'encre numérique (sur une image). C'est le cas surtout de la reconnaissance optique de caractères. Dans ce contexte, il est impossible de savoir comment ont été tracés les différents motifs. Il est uniquement envisageable d'extraire des formes à partir de l'image, en s'appuyant sur les technologies de reconnaissance de forme.

C'est le type de reconnaissance privilégié pour les traitements asynchrones, tels que la lecture de chèques bancaires ou le tri postal.

Reconnaissance en-ligne

Dans le cadre de la reconnaissance en-ligne, l'échantillon d'encre est constitué d'un ensemble de coordonnées ordonnées dans le temps. Il est ainsi envisageable de suivre le tracé, de connaître les posés et levés de stylo et peut-être l'inclinaison et la vitesse. Il faut bien entendu un matériel spécifique pour saisir un tel échantillon, c'est le cas surtout des stylos numériques ou des stylets sur agendas électroniques ou sur les Tablets PC.

La reconnaissance en-ligne est le plus souvent bien plus efficace que la reconnaissance hors-ligne car les échantillons sont bien plus informatifs. Par contre, elle nécessite un matériel bien plus coûteux et impose de fortes contraintes au scripteur puisque la capture de l'encre doit se faire au moment de la saisie (capture synchrone) et non a posteriori (capture asynchrone).

Les techniques usitées peuvent avoir un champ applicatif plus vaste donnant la possibilité la reconnaissance de toute forme abstraite simple (cf. Reconnaissance de formes, Intelligence artificielle faible). Les dispositifs actuels (en 2005) procèdent surtout par une comparaison de l'échantillon à reconnaître avec ceux contenus dans une base de données. Cette base de données peut être créée de toutes pièces ou être l'objet d'une phase d'apprentissage.

Les techniques de comparaison reposent le plus souvent sur des méthodes statistiques simples pour gagner en vitesse de traitement. La conséquence est que le nombre de formes reconnaissables doit être limité, sans quoi les résultats risquent d'être fréquemment erronés. En effet, toute la difficulté de la reconnaissance est d'évaluer la similarité entre une forme étudiée et chaque forme de la base de données (il est presque impossible qu'il y ait une correspondance exacte). Il suffit alors de choisir la forme la plus identique. La reconnaissance parfaite doit avoir la même évaluation de similarité que le cerveau, ce dont on se rapproche avec les réseaux de neurones. Mais les méthodes plus rapides (moins complexes) évalueront une similarité entachée d'erreur. Quand il y a peu de formes dans la base de données, bien scindées, la forme la plus identique restera la même, et par conséquent le résultat final sera juste. En augmentant la taille de la base des données, on «rapproche» obligatoirement les formes modèles entre elles, et l'erreur sur la similarité peut plus aisément faire pencher la balance vers une mauvaise forme.

Reconnaissance de forme

La reconnaissance de forme joue un rôle particulièrement important dans la reconnaissance de l'écriture (manuscrite/imprimée) à deux niveaux :

Extraction de graphème

La reconnaissance de forme s'applique sur un motif. Il faut par conséquent en premier lieu séparer les différents motifs composant les mots (lettres, chiffres, symboles…) avant de les reconnaître.

Sur l'exemple suivant, les différents points de séparation envisageables sont annotés.

Segmentation d’un échantillon d’encre numérique en graphème.

Il est évident que l'ensemble des segmentations ne sont pas correctes et que seules certaines doivent être conservées. Il existe par conséquent une ambiguïté qu'il faut lever pour optimiser la reconnaissance.

Reconnaissance de motifs

À partir des graphèmes extraits auparavant, la reconnaissance de forme permet d'obtenir les différents motifs la composant. La reconnaissance de motifs va aussi assister l'extraction de graphèmes en écartant une partie des segmentations impossible. Ainsi, plus la reconnaissance de motif est efficace et plus la segmentation l'est . De la même façon, une segmentation efficace conduit obligatoirement à une meilleure reconnaissance. Il faut segmenter pour reconnaître, et reconnaître pour segmenter.

Assistance du modèle de langage

Il reste énormément d'ambiguïtés après les opérations de segmentation et de reconnaissance. Le traitement du langage intervient à ce niveau en écartant les solutions les moins probables, d'un point de vue linguistique.

Assistance du modèle de langage pour trancher entre plusieurs solutions de la segmentation et de la reconnaissance.

Dans l'exemple précédent, les étapes de segmentations et de reconnaissance de forme ont conduit aux choix «lrj» ou «by». Le modèle de langage (quelquefois un simple dictionnaire) choisira probablement la solution «by» selon la langue. Le modèle de langage peut-être bien plus complexe et reconnaître par exemple des suites de formes (n-grammes). Ainsi «Il est» sera préféré à «Il ont» en cas d'ambiguïté.

Collaboration des traitements

Le déroulement de la reconnaissance n'est pas linéaire : les différents traitements apportant à chaque fois légèrement plus d'information sur les solutions probables, il peut être intéressant de reprendre une étape à partir des informations apportées par un traitement précédent pour affiner le résultat. Il y a ainsi une collaboration des différents traitements pour augmenter la fiabilité de la reconnaissance.

A priori sur le langage

Quel que soit le type de reconnaissance de l'écriture, l'affinage du modèle de langage est la clé de l'optimisation. En effet, pour garantir de bons résultats il faut plutôt voir le traitement comme faire un choix de solution (s) parmi un ensemble de choix proposé a priori plutôt que de chercher à deviner, à partir de la forme, ce que le scripteur a voulu écrire. Chercher à reconnaître un texte sans aucune information est à ce jour particulièrement complexe, tandis que chercher à reconnaître le même texte si on connaît la langue employée et le registre (prise de note, texte «correct», SMS) est bien plus efficace.

De cette façon, la technologie est suffisamment avancée pour permettre de reconnaître particulièrement rapidement et avec une excellente fiabilité l'adresse sur une enveloppe : le dispositif ne cherche pas à reconnaître au hasard une information, mais à extraire un code postal (par exemple, en France : 5 chiffres) parmi tous ceux qu'il connaît. Un nouveau tri par quartier est alors envisageable : le dispositif cherchera à extraire la rue parmi celles qu'il connaît pour ce code postal…

À titre de ressemblance, il est envisageable pour un être humain de comprendre l'intégralité d'une phrase même quand une partie est bruité, par exemple le lecteur parviendra sans aucun doute à comprendre la phrase bruitée suivante : «je suis allé au ci*** voir un film», grâce au contexte posé par le reste de la phrase. Ce contexte donne un a priori sur le mot bruité à reconnaître.

Bibliographie

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Reconnaissance_de_l%27%C3%A9criture_manuscrite.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu