HDR de Aurélie Lemaitre

Combinaison de données hétérogènes pour la reconnaissance d’images de documents

Soutenue le 3 novembre 2020

Résumé

Ce manuscrit est une synthèse de mes travaux de recherche depuis 2008, au sein de l’équipe Intuidoc de l’Irisa. Ces travaux portent sur l’analyse automatique d’images de documents numérisés, et plus particulièrement la reconnaissance de la structure de documents.

S’il existe des OCR du commerce de bonne qualité, la reconnaissance d’images de documents reste un problème ouvert pour les documents anciens, abîmés, à structure complexe, ou avec une forte interaction entre écriture manuscrite et texte imprimé.

Mes travaux se sont focalisés autour de la méthode DMOS. Il s’agit d’une méthode à base de règles grammaticales, permettant une description physique, syntaxique et sémantique des documents à reconnaître.

En particulier, nous avons mis au point le mécanisme de calque perceptif, qui permet une combinaison de données hétérogènes, guidée par une description grammaticale des contenus.

Les données hétérogènes peuvent être des primitives basiques extraites de l’image (segments, composantes connexes), des objets construits (lignes de texte, alignements), des résultats de classifieurs, des données issues d’interactions avec l’utilisateur, des résultats de systèmes de reconnaissance d’écriture, et plus récemment des résultats produits par des systèmes à base d’apprentissage profond. Ces données sont combinées en étant guidées par des règles symboliques décrivant l’organisation physique et logique des documents.

Dans ce manuscrit, nous présentons l’intérêt de la combinaison de données hétérogènes sur de nombreuses problématiques concrètes. Nous abordons les tâches de segmentation physique des pages : la localisation de lignes de texte et la segmentation en paragraphes. Nous étudions l’analyse de documents à structure complexe comme la presse ancienne, le corpus hétérogène Maurdor, des diagrammes de type flowchart, ou des documents tabulaires d’histoire de la finance. Nous présentons également des résultats sur des formulaires pré-imprimés.

Enfin, nous abordons des perspectives de recherches autour de l’apprentissage avec peu de données, ainsi que des interactions avec le domaine du traitement automatique de la langue.

Composition du jury

  • Thierry Paquet, Univ Rouen, rapporteur
  • Veronique Eglin, INSA de Lyon, rapporteur
  • Rolf Ingold, Univ Fribourg (Suisse), rapporteur
  • Jean-Yves Ramel, Univ Tours
  • Guillaume Gravier, CNRS
  • Bertrand Coüasnon, INSA de Rennes