Thèse de Camille Guerry

Soutenue le 16 décembre 2022

Big-data historique : modélisation de stratégies d’analyse de collections de documents

Résumé

Les travaux de cette thèse s’inscrivent dans le projet ANR HBDEX dont l’objectif est d’étudier le comportement des marchés financiers sur le long terme. L’extraction d’informations dans des images de tableaux anciens de cotations boursières engendre plusieurs difficultés liées à la dégradation des documents, à la complexité de leur structure et à la nécessité de maximiser la qualité de l’extraction d’informations. Pour faire face à ces difficultés, nous proposons d’exploiter le contexte de la collection et notamment sa stabilité. 
 
La méthode ISICA (Interactive Strategy for Interactive Collection Analysis) que nous proposons, consiste en un processus itératif qui, à chaque itération, transforme l’information unitaire de chaque image pour construire une séquence d’informations. Cette séquence est automatiquement analysée en exploitant les redondances puis les résultats de cette analyse sont réintégrés dans l’analyse de chaque image. Nous proposons donc un système capable de passer d’une représentation en images vers une représentation séquentielle et inversement pour progressivement analyser et intégrer l’information venant de la collection. ISICA permet de spécifier des stratégies différentes en définissant l’ordonnancement et le contenu de chaque itération. 
 
Nous avons appliqué notre méthode aux documents de la Coulisse dans le cadre du projet ANR HBDEX. ISICA permet par exemple sur l’identification des titres boursiers, de passer la F-mesure de 0,914 à 0,988, tout en divisant par plus de 20 le nombre de questions posées à un expert. La généricité d’ISICA a été démontrée en l’appliquant sur d’autres tableaux de cotations dans le cadre du projet européen EURHISFIRM. 

Composition du jury

  • Rolf INGOLD, Professeur des universités, Université de Fribourg (Suisse) 
  • Jean-Yves RAMEL, Professeur des universités, Université de Tours 
  • Joseph CHAZALON, Enseignant-chercheur, EPITA Paris 
  • Véronique EGLIN, Professeur des universités, INSA Lyon 
  • Bertrand COÜASNON, Maître de conférences HDR, INSA Rennes 
  • Aurélie LEMAITRE, Maître de conférences HDR, université Rennes 2 
  • Sébastien ADAM, Professeur des universités, université de Rouen