DocRead : générateur automatique de systèmes de reconnaissance de documents structurés

Contact : Bertrand Coüasnon ( Bertrand.Couasnon@irisa.fr )

 

DocRead est un générateur automatique de systèmes de reconnaissance de documents structurés, développé grâce à la méthode DMOS. Il est constitué d’un compilateur du langage EPF (permettant de décrire un document à l’aide d’une grammaire), d’un module d’analyse lié à ce langage, d’un module de vision précoce (binarisation et extraction de segments) et d’un classifieur ayant des capacités de rejet.

Ce générateur nous permet une adaptation rapide à un nouveau type de document. En effet, il faut simplement définir une nouvelle grammaire (à l’aide d’EPF) qui décrit le nouveau type de document et, si nécessaire, il faut effectuer un nouvel apprentissage du classifieur pour lui permettre de reconnaître de nouveaux symboles. Le système de reconnaissance adapté est alors automatiquement produit par compilation.

Grâce à ce générateur, nous avons défini un certain nombre de systèmes de reconnaissance :

  • ScoRead : prototype de reconnaissance de partitions musicales ;
  • MathRead : prototype de reconnaissance de formules mathématiques ;
  • TennisRead : prototype de reconnaissance de terrain de tennis dans des vidéo ;
  • TabRead : prototype de reconnaissance de structures tabulaires ;
  • NatuRead : prototype de reconnaissance de décrets de naturalisation du XIXe siècle. Ce sont des formulaires uniquement manuscrits ;
  • FormuRead : logiciel qui permet d’extraire automatiquement la structure de formulaires d’incorporation militaire du XIXe siècle, malgré leur dégradation. Ce logiciel a été testé sur 60 223 pages des Archives de la Mayenne et a montré ses très bonnes capacités.

Image du formulaire

 

Structure détectée

 

Équipe IntuiDoc
Résumé de la politique de confidentialité

Ce site utilise des cookies afin que nous puissions vous fournir la meilleure expérience utilisateur possible. Les informations sur les cookies sont stockées dans votre navigateur et remplissent des fonctions telles que vous reconnaître lorsque vous revenez sur notre site Web et aider notre équipe à comprendre les sections du site que vous trouvez les plus intéressantes et utiles.