Offre de thèse à la BnF

Illa - J-Yves.Ramel

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

4 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Offre de thèse à la BnF Sujet: Offre de thèse à la BnFDe : Thierry Paquet Date : Sun, 30 May 2010 22:38:04 +0200Pour : destinataires inconnus:;destinataires inconnus:;;destinataires.inconnus: ""@mars.math-info.univ-paris5.fr;;;Caractérisation des Documents Numérisés et prédiction de performances des techniques d’OCRet d’IndexationElaboration d’un logiciel de recommandation pour les organismes de préservation etprestatairesContactThierry.Paquet@univ-rouen.frLaboratoire LITIS – Université de RouenContexte du projetLa BnF a entrepris depuis 2006 des projets de numérisation de masse de documents imprimés,incluant la conversion par OCR des textes, afin d’en faciliter l’accès et l’utilisation. Les résultatsde cette conversion en mode texte se sont avérés très disparates, du fait de la diversité desfonds patrimoniaux concernés, atteignant des taux de reconnaissance automatique de plus de99% ou à l’inverse des taux très bas, voire nuls.Les documents imprimés déjà convertis en mode texte couvrent la période allant du 17e siècleau 1er quart du 20ème siècle. L’acquisition numérique a été faite à partir d’originaux ou à partirde reproductions microfilms ou microfiches. Le fonds couvert est principalement en languefrançaise, mais de nombreux documents contiennent des citations, ou d’importantes parties detextes en d’autres langues et alphabets. Leur contenu peut être très complexe (mélangetexte/images ou graphiques, multi-colonnes ...

Sujets

informatique

Informations

Publié par	Illa
Nombre de lectures	35
Langue	Français

Extrait

Offre de thèse à la BnF

1 sur 4

Sujet:Offre de thèse à la BnF De :Thierry Paquet <Thierry.Paquet@univ-rouen.fr> Date :Sun, 30 May 2010 22:38:04 +0200 Pour :stinataires.inconnus: ""@mars.math-destinataires inconnus:;destinataires inconnus:;;de info.univ-paris5.fr;;;

Caractérisation des Documents Numérisés et prédiction de performances des techniques d’OCR et d’Indexation Elaboration d’un logiciel de recommandation pour les organismes de préservation et prestataires

Contact Thierry.Paquet@univ-rouen.fr Laboratoire LITIS – Université de Rouen

Contexte du projet La BnF a entrepris depuis 2006 des projets de numérisation de masse de documents imprimés, incluant la conversion par OCR des textes, afin d’en faciliter l’accès et l’utilisation. Les résultats de cette conversion en mode texte se sont avérés très disparates, du fait de la diversité des fonds patrimoniaux concernés, atteignant des taux de reconnaissance automatique de plus de 99% ou à l’inverse des taux très bas, voire nuls.

Les documents imprimés déjà convertis en mode texte couvrent la période allant du 17e siècle au 1er quart du 20ème siècle. L’acquisition numérique a été faite à partir d’originaux ou à partir de reproductions microfilms ou microfiches. Le fonds couvert est principalement en langue française, mais de nombreux documents contiennent des citations, ou d’importantes parties de textes en d’autres langues et alphabets. Leur contenu peut être très complexe (mélange texte/images ou graphiques, multi-colonnes, formules scientifiques, etc.)

Objet général de la recherche Permettre une préconisation des meilleurs outils et méthodes à appliquer en fonction des fonds concernés afin de prédire l’adéquation des documents à convertir aux systèmes d’OCR. Elle doit également présenter les taux d’OCR recommandés selon les types de documents afin de rendre l’indexation et la recherche de document performante. La typologie de documents ainsi établie offrirait la possibilité de n’envoyer dans les marchés de conversion que les documents susceptibles de fournir des résultats suffisants pour l’indexation, l’affichage et l’exploitation sur des médias divers. Ce serait une aide à la sélection et un facteur de réduction des coûts, puisque la BnF éviterait ainsi de payer une prestation fournissant des résultats inexploitables du fait d’une qualité de reconnaissance trop basse. Les préconisations et la typologie établies devront couvrir la période 1750-1940 pour laquelle il reste encore des documents à convertir dans Gallica, mais aussi la période antérieure car le fonds Gallica comprend des imprimés publiés dès les premiers âges de l’imprimerie et en particulier quelques 200 incunables, mais aussi parce que les projets de numérisation à venir vont concerner de plus en plus les ouvrages de la réserve des livres rares et précieux. La BnF dispose déjà d’images de documents antérieurs à 1750 en quantité suffisante pour être exploitées en vue de la définition d’une méthodologie et de techniques de traitement d’image et d’analyse de données pour caractériser la qualité des données numérisées afin de prédire leur adéquation aux systèmes d’OCR. Le projet devra mettre à disposition de la BnF les moyens informatiques lui permettant un contrôle qualité de sa chaîne de traitement en amont des systèmes d’OCR. Il pourra utiliser les outils et protocoles mis au point dans le cadre du projet de recherche en cours.

Sujet proposé Le sujet que nous proposons se donne pour objectif d’apporter des éléments de réponse à cette question récurrente de l’adéquation des données aux systèmes d’OCR. Par cette étude nous n’envisageons pas remettre en cause précisément les techniques d’OCR actuellement commercialisées car elles ne sont accessibles que sous la forme de « boîte noire » dont seules les entrée/sorties sont observables. C’est donc sur ces seules observations que nous nous proposons d’évaluer l’adéquation des données aux systèmes d’OCR en faisant abstraction des techniques mises en œuvre. En revanche différents moteurs d’OCR pourront être utilisés au cours de cette étude à titre de comparaison dont notamment les principaux outils

31/05/2010 09:22

Offre de thèse à la BnF

2 sur 4

commercialisés mais également des approches alternatives comme celle actuellement développée par le LITIS (Rouen) et le LI (Tours) dans le cadre du projet ANR NAVIDOMASS.

En amont du système d’OCR nous proposons de caractériser les données selon plusieurs critères complémentaires dont on sait a priori qu’ils seront représentatifs des phénomènes qui dégradent les performances du système.

1- Qualité du support : Les documents anciens ou dégradés présentent un contraste souvent moins marqué que les documents contemporains du fait du vieillissement du papier. Qui plus est, la numérisation étant fréquemment réalisée à l’aide d’une caméra, ces documents présentent également des variations d’illumination importantes. Ces effets se cumulent alors pour rendre souvent délicate l’étape cruciale de binarisation qui est systématiquement réalisée par les OCR. La caractérisation de ce phénomène apparaît donc indispensable afin d’évaluer la difficulté à réaliser correctement cette étape par un OCR. Les techniques de filtrage par ondelettes qui sont utilisées par les algorithmes de compression d’images les plus récents comme JPEG2000, ont la capacité à décomposer les images selon différentes échelles. Sur des images de documents, il est alors possible de séparer les différents niveaux de détails, et en particulier de séparer d’une part les phénomènes basse fréquences qui caractérisent principalement le support papier, et d’autre part les phénomène hautes fréquences qui caractérisent d’avantage les caractères ou graphiques. L’analyse des phénomènes basses fréquences déterminera un ensemble de paramètres représentatifs de la variabilité du support papier. 2- Qualité de la Typographie : Cette étape, complémentaire de la précédente vise à caractériser la régularité des formes de caractères. Cette étape sera mise en œuvre en analysant les phénomènes hautes fréquences. Pour ce faire on pourra s’inspirer de travaux déjà proposés pour l’analyse des écritures manuscrites visant précisément à caractériser la variabilité des styles. Grâce à la définition d’une mesure de variabilité des formes de caractères présents dans un document il est possible de détecter des typographies irrégulières qui surviennent lorsque les contours des caractères sont peu contrastés. Cette situation est caractéristique de la difficulté à localiser et extraire correctement les caractères d’un document quelconque. Cette étape proposera un ensemble de caractéristiques rendant compte de la variabilité de la typographie. 3- Typicalité des polices et alphabets : Même lorsque la détection des caractères est réalisée correctement, la nature des polices peut causer des difficultés à un OCR. C’est notamment le cas sur les documents anciens qui comportent des polices « exotiques » par rapport aux documents contemporains. La détection des polices atypiques par rapport aux standards des OCR commerciaux est donc un autre élément important pour prédire les difficultés que rencontrera un système de rétro-conversion. Les techniques mises en œuvre pourront s’inspirer des approches déjà proposées dans le domaine de l’identification des écritures manuscrites. Un travail important de recensement des polices anciennes pourra éventuellement être réalisé à cette occasion pour constituer une base de connaissances spécifiques.

Dans un second temps, l’ensemble de ces paramètres devra faire l’objet d’une analyse poussée afin d’évaluer précisément leur capacité à prédire les difficultés des OCR. Pour cela il sera tout d’abord nécessaire de définir les critères d’évaluation de performances des différentes tâches (reconnaissance de caractères, de mots, extraction de mots clés, etc…), et de constituer les bases d’exemples étiquetées qui seront indispensables à la mesure de ces performances. On pourra pour cette phase s’appuyer sur les travaux développés actuellement dans le cadre du projet ANR NAVIDOMASS, et qui bénéficie du soutient de la BnF pour constituer ces bases d’exemples de documents. A ce stade, on disposera alors d’un ensemble de paramètres permettant de caractériser précisément les données d’entrée et les performances en sortie d’un OCR. L’analyse corrélative de ces données pourra alors être réalisée afin de construire des outils de prédiction de performances pour les différentes tâches souhaitées et en fonction des OCR sollicités.

A notre connaissance aucun travail d’évaluation quantitative aussi poussé n’a jusqu’alors pu être réalisé dans le domaine de l’analyse d’images de documents. L’une des difficultés principales de ce type d’étude est liée à la possibilité de disposer de données suffisantes pour qu’elle puisse être menée sérieusement. La Bibliothèque Nationale de France est précisément l’organisme le plus à même de mettre à disposition les données nécessaires (qu’il s’agisse de données brutes sous forme d’images ou de données étiquetées pour lesquelles on dispose des

31/05/2010 09:22

Offre de thèse à la BnF

3 sur 4

résultats d’OCR corrigés souhaités) ainsi que l’expertise applicative pour mener jusqu’à son terme ce programme de recherche.

Partenariat Ce programme de recherche sera réalisé dans le cadre de la préparation d’un doctorat proposé conjointement par le LITIS (Laboratoire d’Informatique de Traitement de l’Information et des Systèmes de l’université de Rouen) et le LI (Laboratoire d’Informatique de Tours). Ces deux laboratoires collaborent actuellement dans le cadre du projet NAVIDOMASS (ANR Masses de Données) pour proposer des systèmes d’OCR robustes aux différentes dégradations rencontrées sur les documents anciens. Par ailleurs les deux laboratoires de recherche disposent d’une expertise importante dans le domaine de l’analyse d’images de documents – en particulier de documents anciens - et de la reconnaissance de formes, notamment en reconnaissance de l’écriture manuscrite. L’expérience acquise dans ce domaine difficile pourra être mise à profit pour aborder la problématique des OCR dégradés.

Profil du candidat recherché Pour mener le programme de recherche proposé nous recherchons un candidat ayant une solide formation scientifique d’un niveau Master ou équivalent. Il aura une formation en Informatique ou en Génie Informatique et devra avoir des compétences en traitement d’images, et reconnaissance des formes. Une expérience significative, par exemple un stage de recherche dans ces domaines, serait un plus. formation en traitement d’images et reconnaissance de formes compétences solides en programmation (C++, Java) et langage Xml une première expérience en analyse d’images de documents serait appréciée une aptitude à communiquer à l'oral comme à l'écrit en Anglais et en Français une aptitude à communiquer dans un service de bibliothèque

Domaines ou disciplines concernés Traitement d’images, Reconnaissance de formes, Génie Informatique, Numérisation, conversion en mode texte des documents, indexation.

Bibliographie www.abbyy.com www.readsoft.com www.parascript.com

Kamel Ait Mohand, Thierry Paquet, Nicolas Ragot, Laurent Heutte, Structure Adaptation of HMM applied to OCR, ICPR (International Conference on Pattern Recognition), Istambul, August 2010. Kamel Ait-Mohand, Laurent Heutte, Thierry Paquet, Nicolas Ragot, Adaptation d’un système d’OCR Markovien à de nouvelles fontes, soumis au congrès RFIA 2010, Reconnaissance des Formes et Intelligence Artificielle, Caen 2010. J. Liang, D. DeMethon, D. Doerman, Geometric rectification of Camera-captured Document Images, IEEE PAMI, Vol. 30, N° 4, pp. 591-605, 2008. Faisal Shafait, Daniel Keysers, Thomas Breuel, "Performance Evaluation and Benchmarking of Six-Page Segmentation Algorithms," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 30, no. 6, pp. 941-954, June, 2008. JY Ramel, S. Leriche, ML, Demonet S. Busson, User-driven Page Layout Analysis of historical printed Books. International Journal on Document Analysis and Recognition. Special issue on Graphics Recognition Volume 9, Numbers 2-4. April, p243-261, 2007 U. Garain, T. Paquet, L. Heutte, On Foreground-Background Separation in Low Quality Document Images, International Journal on Document Analysis and Recognition, Vol. 8, N° 1, pp. 47-63, April 2006. M.Brown, W. Seales, Image restoration of arbitrarily Warped Documents, IEEE PAMI, vol. 26, N° 10, pp. 1295-1306, 2004. S. Mao and T. Kanungo, Software architecture of PSET: a page segmentation evaluation toolkit, International Journal on Document Analysis and Recognition, Volume 4, Number 3 / mars 2002. Yanikoglu B.A, Vincent Luc, PINK PANTHER : A complete environment for ground-truthing and benchmarking document page segmentation, IBM Almaden Research Center, 650 Harry Road, San Jose, CA 95120, U.S.A, 1997. Rice S.V., Nartker T.A., The ISRI Analytic Tools for OCR Evaluation, ISRI 1996. Annual Research

31/05/2010 09:22

Offre de thèse à la BnF

4 sur 4

Report, University of Nevada, Las Vegas, Août 1996 OCRopus est un logiciel libre de reconnaissance optique de caractères avec analyse de mise en page développé avec l'aide de Google pour leur projet Google Books - lien web http://code.google.com/p/ocropus/ Tesseract est le module de reconnaissance par défaut de la suite libre OCRopus. Il a été initialement développé par HP - lien webhttp://code.google.com/p/tesseract-ocr/

31/05/2010 09:22