Thèse d’Isaac Martinat

Conception d’un langage de description de structures tabulaires et du système de reconnaissance associé. Application aux tableaux dans les documents d’archives.

Soutenue le jeudi 17 décembre 2009 à l’Irisa

Résumé

De nos jours, une numérisation en masse de documents permet une large diffusion de ceux-ci. Pour faciliter l’accès aux informations contenues dans certains de ces documents, nous nous intéressons à la reconnaissance d’une classe de documents structurés, les tableaux. Cette thèse présente un langage de description de tableaux associé à un système de reconnaissance. Ce langage simple et intuitif permet de décrire des descriptions de structures tabulaires complexes et variables ainsi que des descriptions plus précises. Celles-ci permettent à l’analyseur de compenser les informations manquantes et d’absorber le bruit. Pour concevoir l’analyseur et l’utilisation des informations des descriptions, nous proposons une représentation interne et introduisons le concept d’intersections finales. Celles-ci aident à caractériser la structure des tableaux. Pour valider notre système, nous présentons des résultats sur des structures
de tableaux très variées et sur plus de 44 000 documents d’archives.

 

  • Isaac Martinat. Conception d’un langage de description de structures tabulaires et du système de reconnaissance associé. Application aux tableaux dans les documents d’archives. Thèse de l’INSA de Rennes, Décembre 2009. download

 

Jury

  • Jean-Marc Ogier
  • Laurence Likforman-Sulem
  • Igor Stéphan
  • Jean Camillerapp
  • Bertrand Coüasnon