Thèse de Cérès Carton

Inférence semi-automatique et interactive de règles avec ou sans vérité terrain pour la reconnaissance de structure de documents

Soutenue le 23 mars 2016

Résumé

Les documents à traiter dans le domaine de l’analyse de la structure de documents sont de plus en plus complexes et les corpus de plus en plus hétérogènes. Nous proposons une nouvelle méthode, la méthode Eyes Wide Open (EWO) pour introduire une phase d’apprentissage semi-automatique et interactive dans la construction de descriptions grammaticales. Grâce à la méthode EWO, il est possible de disposer du grand pouvoir d’expression des méthodes syntaxiques tout en ayant l’adaptabilité des méthodes statistiques.

La méthode EWO permet d’inférer des règles afin de construire de manière progressive la description grammaticale complète des documents. L’inférence des règles concerne à la fois la structure logique et la structure physique des documents. La méthode EWO repose sur deux éléments majeurs : l’émergence automatique de structures grâce à un algorithme de clustering et une interaction avec l’utilisateur pour donner un sens aux structures détectées automatiquement.

Notre méthode permet de plus l’inférence des règles sans vérité terrain annotée disponible sur les documents. Pour ce faire, la méthode EWO repose sur l’analyse de redondances dans de grands volumes de documents non annotés. La détection des redondances est faite automatiquement grâce à un algorithme de clustering. Les éléments détectés automatiquement sont ensuite fiabilisés par l’utilisateur afin d’obtenir les données étiquetées d’apprentissage.

La méthode EWO apporte une vision exhaustive et synthétique des données à analyser. Cela permet une meilleure exploitation du corpus que pour les méthodes syntaxiques décrites manuellement. Cela permet de plus une meilleure gestion des cas rares que ce qui est possible pour les méthodes statistiques.
Nous avons validé l’efficacité cette approche sur des documents à structure variée (courriers manuscrits, registres d’archives, formulaires…). Pour chaque corpus de documents, des descriptions grammaticales ont été générées avec à la méthode EWO, obtenant des performances comparables ou meilleures que celles de systèmes pré-existants décrits manuellement. La méthode a également été appliquée avec succès sur un large corpus sans vérité terrain.

Composition du jury

– Josep Lladós, Associate Professor à l’UAB Barcelone (Espagne), Rapporteur
– Thierry Paquet, Professeur à l’Université de Rouen, Rapporteur
– Jean-Marc Ogier, Professeur à l’Université de La Rochelle, Examinateur
– Christian Viard-Gaudin, Professeur à l’Université de Nantes, Examinateur
– Christopher Kermorvant, Président de Teklia SAS, Invité
– Bertrand Coüasnon, Maître de conférences (HDR) à l’INSA de Rennes, Directeur
– Aurélie Lemaitre, Maître de de conférences à l’Université de Rennes 2, Co-encadrante