Hybridation d’approche IA « Transparente » et « Deep Learning » pour l’analyse automatisée de productions graphiques d’élèves dans le contexte de l’éducation.

Directeur :
E. Anquetil (eric.anquetil@irisa.fr), Prof. INSA Rennes, Responsable de l’équipe IntuiDoc.

Lieu : IRISA, IntuiDoc, Rennes

Mots-clés : Intelligence artificielle ; machine learning ; deep learning ; analyse de tracés manuscrits, écriture, schéma, dessin ; éducation.

L’équipe de recherche IntuiDoc (http://www.irisa.fr/intuidoc/) de l’IRISA travaille sur l’analyse et la reconnaissance de tracés et de gestes manuscrits réalisés sur tablettes et écrans tactiles. IntuiDoc s’intéresse notamment à la conception de moteur de reconnaissance et d’analyse de formes [1] et aux nouveaux usages autour de l’interaction gestuelle sur des surfaces tactiles [2][3].

Sur cette thématique, à travers le projet d’Investissement d’Avenir (PIA) « IntuiScript » et le laboratoire commun ANR « ScriptAndLabs » (https://scriptandlabs.irisa.fr/),  nous avons conçu ces dernières années des moteurs d’analyse automatisés de l’écriture manuscrites pour expertiser les productions graphiques des enfants à l’école [4][5]. Ces moteurs ont été intégrés dans la suite logiciel éducative « Kaligo ». Elle fournit à l’élève en temps réel des retours (aide, correction) sur la qualité de son écriture (forme, ordre, sens) et détermine un parcours pédagogique personnalisé. L’élève peut ainsi améliorer son apprentissage tout en gagnant en autonomie.

Après avoir travaillé sur l’apprentissage de l’écriture en France, nous sommes aujourd’hui en train d’étendre ces travaux à l’apprentissage de l’écriture en Angleterre. Il s’avère que chaque pays à des règles d’apprentissage particulières qui nécessitent souvent une reconfiguration assez profonde des approches d’analyse utilisées. Par exemple, en Angleterre, c’est l’écriture script qui prédomine avec l’utilisation de ligatures entrantes et sortantes spécifiques. La « transparence » des approches d’analyses que nous utilisons aujourd’hui (systèmes d’inférence floue, stratégies de segmentation explicite, extractions de caractéristiques dédiées) permettent l’adaptation à ces nouvelles problématiques mais nécessite une expertise forte et une longue mise au point pour requalifier l’ensemble des éléments de la chaine de traitement.

Nous souhaitons dans cette thèse explorer une piste d’hybridation des stratégies d’analyse « transparentes » utilisées actuellement avec les récentes avancées scientifiques des réseaux de neurones profonds [6][7]. L’objectif est d’automatiser l’apprentissage de certains maillons de la chaine de traitement, aujourd’hui difficiles à mettre au point, tout en conservant une interprétabilité des décisions et diagnostiques opérés. Autrement dit, il s’agit de concevoir une approche plus générique capable d’appréhender l’analyse et l’interprétation de production graphiques variées : écriture de différentes langues, schémas, esquisses…

Il est important de préciser que l’objectif ici n’est pas uniquement de « reconnaitre » la production graphique de l’élève mais d’expertiser finement la qualité de cette production selon le contexte des enjeux pédagogiques. Ce challenge est donc assez différent d’un problème classique de « reconnaissance » : ici l’objectif est de diagnostiquer/interpréter/analyser les erreurs, les imperfections, les manques ou encore les ajouts de l’enfant en cours d’apprentissage.

Plus concrètement, nous nous intéresserons dans cette thèse notamment à deux potentialités offertes par les réseaux de neurones profonds :

  1. Extraire automatiquement les caractéristiques adaptées à chaque typologie de production graphiques [7];
  2. Mettre en place des modèles d’attention [8] dans le but de focaliser la modélisation sur les éléments pédagogiquement saillants afin d’obtenir une meilleure modélisation des attentes pédagogiques et par conséquent fournir un meilleur diagnostique sur les erreurs commises par l’élève.

Une des conditions pour pouvoir exploiter correctement les réseaux de neurones profonds est d’avoir suffisamment d’exemples d’apprentissage étiquetés. Ce point constitue une vraie difficulté dans notre domaine. En effet, récupérer des exemples de productions graphiques mal et biens formés (d’enfants et/ou d’enseignants) est toujours très fastidieux et couteux en temps. Pour pallier à ce problème, nous aurons recours à la conception de stratégies de synthèse automatisée à partir de données réelles. Pour ce faire nous étudierons les réseaux antagonistes génératifs [9] ou encore les méthodes de transfer learning [10].

L’équipe étant impliquée dans différents partenariats académiques et industriels, la robustesse et la fiabilité de l’approche conçue pendant cette thèse sera validée à travers différentes expérimentations dans plusieurs milieux éducatifs internationaux.                           

Références  

  • Almaksour and E. Anquetil, “Improving premise structure in evolving Takagi-Sugeno neuro-fuzzy classifiers”, Evolving Systems, vol. 2, no. 1, pp. 25–33, 2011.
  • Li, M. Bouillon, E. Anquetil, and G. Richard, “User and System Cross-Learning of Gesture Commands on Pen-Based Devices”, in Proceeding of the 14th International Conference on Human-Computer Interaction (INTERACT), 2013, vol. 2, pp. 337–355.
  • Rejean Plamondon, Giuseppe Pirlo, Eric Anquetil, Céline Rémi, Hans-Leo Teulings, et al.. Personal Digital Bodyguards for e-Security, e-Learning and e-Health:A Prospective Survey. Pattern Recognition, Elsevier, 2018, 81, pp.633-659.
  • Damien Simonnet, Nathalie Girard, Eric Anquetil, Mickaël Renault, Sébastien Thomas, Evaluation of children cursive handwritten words for e-education, Pattern Recognition Letters, Volume 121, 2019, Pages 133-139, ISSN 0167-8655
  • Damien Simonnet, Eric Anquetil, Manuel Bouillon, Multi-criteria handwriting quality analysis with online fuzzy models, Pattern Recognition, Volume 69, 2017, Pages 310-324, ISSN 0031-3203.
  • Keysers, T. Deselaers, H. A. Rowley, L.-L. Wang, and V. Carbune, “Multi-language online handwriting recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 6, pp. 1180–1194, 2017.
  • Du, J.-F. Zhai, and J.-S. Hu, “Writer adaptation via deeply learned features for online Chinese handwriting recognition,” Int. Journal on Document Analysis and Recognition, vol. 20, no. 1, pp. 69—78, 2017
  • Haoyu Qin and Liangrui Peng. 2017. Convolutional Neural Network with Attention Mechanism for Historical Chinese Character Recognition. In Proceedings of the 4th International Workshop on Historical Document Imaging and Processing (HIP2017). ACM, New York, NY, USA, 42-47
  • Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2014. “Generative adversarial nets”. In Proceedings of the 27th International Conference on Neural Information Processing Systems – Volume 2 (NIPS’14), Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger (Eds.), Vol. 2. MIT Press, Cambridge, MA, USA, 2672-2680.
  • J. Pan and Q. Yang. A survey on transfer learning.IEEE Trans. onKnowledge and Data Eng. (TKDE), 22(10):1345–1359, 2010