ImadocSen-OnDB : base de phrases manuscrites en-ligne

Présentation

La base ImadocSen-OnDB est une base de phrases manuscrites en-ligne, contenant des mots anglais écrits en minuscule. Elle peut être utilisée pour entraîner et tester des systèmes de reconnaissance de phrases ou de mots manuscrits ou encore faire des expérimentations sur l’identification de scripteur. Les données ont été saisies sur Tablet PC.

La première version de cette base a été publiée dans [Quiniou2005], à ICDAR 2005. La taille de cette base a depuis été augmentée [Quiniou2009a] (voir Références pour plus de détails).

Les phrases ont été saisies à partir de phrases issues du corpus Brown [Francis1979] (voir Références). La base contient des fichiers au format InkML dans lesquels sont sauvegardés chacune des phrases ainsi que des informations sur le support d’acquisition des données, sur le scripteur et sur la transcription. Les mots extraits manuellement des phrases sont aussi donnés, et peuvent ainsi être utilisés pour la reconnaissance de mots isolés, par exemple.
Le protocole d’acquisition des phrases, ainsi que le format de stockage, est décrit plus précisément dans les fichiers joints (fichier dataset_infos.txt, dans le fichier zip).

 

Exemples de phrases manuscrites en-ligne de la base

Caractéristiques

La base ImadocSen-OnDB est composée de (au 20/11/2010) :

* 51 scripteurs (dont 42 scripteurs différents)
* 1 017 phrases saisies
* 15 849 mots extraits

Téléchargement

La base de phrases manuscrites peut être téléchargée sous forme d’un fichier zip contenant toutes les données ainsi que les informations sur les données collectées.

Cliquez ici pour télécharger le fichier zip.

Contact

Pour toute question ou suggestion, vous pouvez contacter Eric Anquetil.

Références

[Quiniou2005] S. Quiniou and E. Anquetil and S. Carbonnel. Statistical Language Models for On-line Handwritten Sentence Recognition, 2005, Proceedings of the International Conference on Document Analysis and Recognition, pp 516-520.

[Quiniou2009a] S. Quiniou and F. Bouteruche and E. Anquetil. Word Extraction Associated with a Confidence Index for On-Line Handwritten Sentence Recognition, 2009, International Journal on Pattern Recognition and Artifical Intelligence, vol. 23(5), pp 945-966.

[Francis1979] W. Francis and H. Kucera. Brown Corpus Manual. Brown University, 1979.