Le Conseil général des Yvelines (http://www.yvelines.fr), l’Inria et l’Insa de Rennes ont mis en place un partenariat de longue durée pour permettre la réalisation de travaux de recherche par l’équipe sur l’accès aux documents manuscrits d’archives, en collaboration avec les Archives Départementales des Yvelines.
Présentation
Ce partenariat a été initialement conclu en juillet 2002 dans le contexte de la construction du nouveau bâtiment des Archives départementales des Yvelines, financé par le Conseil général des Yvelines. Les premiers résultats ont pu être présentés lors de l’inauguration de ce bâtiment en janvier 2004, et les partenaires ont ensuite souhaité poursuivre ces travaux jusqu’en octobre 2007.
Depuis octobre 2007, une nouvelle convention de recherche a été établie jusqu’en septembre 2011. Cette convention a pour objectif de travailler sur la transcription automatique de mots manuscrits dans le contexte des documents d’archives organisés en collections. Les travaux portent sur la modélisation des connaissances au niveau de la collection pour permettre notamment de mettre l’utilisateur au centre du processus de traitement de la collection en spécifiant les interactions avec un ou plusieurs utilisateurs. Un des objectifs est d’abstraire les contraintes temporelles généralement associées à un traitement par lots de documents, afin de construire une interaction utilisateur véritablement exploitable. Grâce à cette interaction, il sera possible de metre en place un processus de transcription assistée de mots manuscrits. Les travaux seront validés sur des sequestres révolutionnaires, documents recensant les ventes des biens confisqués pendant la Révolution Française.
Résultats de la première convention de recherche
- Période : Juillet 2002 à octobre 2007
Un partenariat à long terme avec le Conseil général des Yvelines a débuté en 2002 avec ce projet de recherche qui s’est poursuivi jusqu’en octobre 2007. En collaboration avec les Archives départementales des Yvelines, l’objectif est de rendre accessibles au public des documents manuscrits d’archives pour une consultation en salle de lecture et sur internet. Dans ce contexte, l’équipe travaille selon trois axes :
- la reconnaissance de structure de documents et la reconnaissance de l’écriture manuscrite pour produire automatiquement des annotations. Ces annotations offrent la possibilité de retrouver un document d’archives par son contenu manuscrit ;
- une plate-forme Web pour gérer les images, les annotations automatiques associées et les annotations collectives effectuées par les lecteurs ;
- une interface orientée stylo construite sur cette plate-forme pour offrir un nouveau mode d’interaction entre les documents numérisés et les documents papier.
La plate-forme d’annotations d’images de documents avec un accès automatique sur les patronymes manuscrits des registres de matricules militaires de 1867 à 1929 est installée actuellement dans la salle de lecture des Archives départementales des Yvelines et sur Internet (cf. http://www.archives.yvelines.fr). Grâce aux annotations automatiques, les lecteurs peuvent retrouver automatiquement la page qu’ils recherchent à l’aide d’une simple requête sur les patronymes manuscrits. Les lecteurs ont également la possibilité d’ajouter des annotations collectives. Dans le cadre du projet de recherche une validation a été effectuée sur 105 000 pages de registres militaires. La même plate-forme a été mise en place sur 1 450 000 doubles pages de registres paroissiaux et d’état-civil.
L’interface orientée stylo de la plate-forme est également installée dans deux « postes de lecture du futur ». Ces prototypes sont constitués d’une tablette graphique intégrée dans un bureau et d’un stylo numérique.
Afin de valoriser ces travaux et les autres travaux de l’équipe, la société Evodia a été créé en octobre 2005. Après un transfert industriel vers cette société, 430 000 pages de registres militaires sont maintenant accessibles par le patronyme manuscrit et la plate-forme d’annotation a été mise en place sur d’autres types de documents.
Communications en relation avec le projet de recherche
Ce projet de recherche et ses premiers résultats ont été présentés lors de différentes manifestations :
- Inauguration du nouveau bâtiment (17 janvier 2004) des Archives des Yvelines à Montigny-le-Bretonneux.Présentation B. Coüasnon.Couverture presse (non exhaustive) : Le Parisien (19 janvier 2004), Le Courrier des Yvelines (21 janvier 2004), La semaine de l’Ile-de-France (5 février 2004), Archimag (mars 2004)…
- Journée de présentation : Nouveaux systèmes d’accès aux documents manuscrits numérisés (16 juin 2005).Organisation de cette journée à l’Inria Rocquencourt et aux Archives départementales des Yvelines.Dossier de presse : (en pdf).
Couverture presse (non exhaustive) : Le Figaro (18 juin 2005, article en pdf), Le Parisien (22 juin 2005, article en pdf)…
- Présentation invitée à la conférence Web du RTP Doc – Atelier « Numérisation ». (27 janvier 2005).Présentation B. Coüasnon
- Conférence invitée au colloque national « Numériser et valoriser en région le patrimoine écrit et graphique » (22-23 septembre 2005).Présentation P. Guérin (Archives départementales des Yvelines) et B. Coüasnon
- Conférence invitée à « Pérenniser le document numérique », Séminaire INRIA IST 2006, Amboise (2 au 6 octobre 2006).Présentation E. Gautier-Desvaux (Directeur des Archives départementales des Yvelines) et B. Coüasnon
Publications en relation avec le projet de recherche
Joseph Chazalon, Bertrand Coüasnon. Using definite clause grammars to build a global system for analyzing collections of documents. Laurence Likforman-Sulem, Gady Agam (eds.), Volume 7534, 2010.
Joseph Chazalon, Bertrand Coüasnon, Aurélie Lemaitre. Mémoire visuelle pour l’analyse grammaticale de documents. In Actes du XIème Colloque International Francophone sur l’Ecrit et le Document (CIFED’10), à paraître, 2010
Laurent Guichard, Alejandro Toselli, Bertrand Coüasnon. Un nouveau système indépendant de rejet multi-seuils pour la reconnaissance de mots manuscrits. In Actes du 17ème Congrès Francophone de Reconnaissance des Formes et d’Intelligence Artificielle (RFIA’10), 2010.
Isaac Martinat. Conception d’un langage de description de structures tabulaires et du système de reconnaissance associé. Application aux tableaux dans les documents d’archives. Thèse de l’INSA de Rennes, Décembre 2009
Isaac Martinat, Bertrand Coüasnon, Jean Camillerapp. An Adaptative Recognition System Using a Table Description Language for Hierarchical Table Structures in Archival Documents. In Graphics Recognition: Recent Advances and Perspectives, Vol. 5046, pp. 9-20, Lecture Note in Computer Science, Springer-Verlag, 2008.
Bertrand Coüasnon, Jean Camillerapp, Ivan Leplumey, Access by Content to Handwritten Archive Documents: Generic Document Recognition Method and Platform for Annotations, International Journal on Document Analysis and Recognition, IJDAR, 9(2):223-242, 2007.
Bertrand Coüasnon, Archivage numérique des documents anciens : Nouveaux systèmes d’accès aux documents manuscrits numérisés, in Pérenniser le document numérique, Séminaire INRIA, B.Hidoine,J.Millet L. Calderan (ed.), Pages 147-170, Octobre 2006.
Bertrand Coüasnon, DMOS, a Generic Document Recognition Method: Application to Table Structure Analysis in a General and in a Specific Way, International Journal on Document Analysis and Recognition, IJDAR, 8(2):111-122, Juin 2006.
Bertrand Coüasnon, Jean Camillerapp, Accès par le contenu aux documents manuscrits d’archives numérisés, Document Numérique, 7(3):61-84, 2003.
Isaac Martinat, Bertrand Coüasnon, A Minimal and Sufficient Way of Introducing External Knowledge for Table Recognition in Archival Documents, in Graphics Recognition. Ten Years Review and Future Perspectives, Volume LNCS 3926, Pages 206-217, Springer Berlin / Heidelberg, 2006.
Bertrand Coüasnon, What can we learn from the processing of 165,000 forms from the 19th century?, in International Workshop on Document Image Analysis for Libraries (DIAL’06), Pages 172-177, Avril 2006.
Isaac Martinat, Bertrand Coüasnon, A Minimal and Sufficient Way of Introducing External Knowledge for Table Recognition in Archival Documents, in Proceedings of GREC, Sixth IAPR International Workshop on Graphics Recognition, Pages 194-205, Hong Kong, China, Août 2005.
Bertrand Coüasnon, Jean Camillerapp, Ivan Leplumey, Making Handwritten Archives Documents accessible to the Public with a Document Image Analysis System, DigiCULT.info Newsletter, pp. 20-24, Août 2004.
Bertrand Coüasnon, Jean Camillerapp, Ivan Leplumey, Making Handwritten Archives Documents accessible to Public with a Generic System of Document Image Analysis, in International Workshop on Document Image Analysis for Libraries (DIAL’04), Pages 270-277, Palo Alto, USA, Janvier 2004.
Jean Camillerapp, Laurent Pasquer, Bertrand Coüasnon, Indexation automatique de formulaires anciens par reconnaissance du patronyme manuscrit, in RFIA, Reconnaissance des Formes et Intelligence Artificielle, Pages 1493-1502, Toulouse, France, Janvier 2004.
Bertrand Coüasnon, Ivan Leplumey, A Generic System for Making Archives Documents Accessible to Public, in ICDAR, International Conference on Document Analysis and Recognition, Edinburgh, UK, Août 2003.