Estimation de densite´ de probabilite´ par maximum d’entropie et reconnaissance bayesienne´ de caracter` es Arabes en ligne. 1 1 2N. Mezghani A. Mitiche M. Cheriet 1 ´INRS Energie, Materiaux´ et Tel´ ecommunications´ 2 ´Laboratoire LIVIA, Ecole de Technologie Superieure´ 800, de la Gauchetiere` Ouest, Suite 6900, Montreal´ QC, H5A 1K6 Canada. neila@emt.inrs.ca Resum´ e´ these densities are determined by gradient descent and sto chastic sampling. The class conditional partition functions Cet article decrit une methode bayesienne de reconnais ´ ´ ´ are estimated from these parameters. We investigated two sance en ligne de caracteres Arabes ou les densites de` ` ´ methods of partition function estimation : one uses the trai probabilite´ de classes sont estimees´ par le principe du ning data directly, the other samples from a refrence distri maximum d’entropie. La methode´ fait intervenir essen bution. The corresponding Bayesian method, and a combi tiellement trois aspects : la representation,´ l’estimation naison of these, are tested on a database of on line Ara des parametr` es des densites´ de classes et bic characters containing 9504 samples from 22 scriptors, des fonctions de partition. Nous utilisons une nouvelle yielding promising results. representation´ de caracter` es Arabes en ligne basee´ sur les distributions empiriques (histogrammes) de tangentes Keywords et de differ´ ences de tangentes a` des points reguli´ er` ement Bayes classification, on line Arabic ...
R´esum´e Cetarticlede´critunem´ethodebay´esiennedereconnais sanceenlignedecaracte`resArabeso`ulesdensit´esde probabilit´edeclassessontestime´esparleprincipedu maximum d’entropie. La me´thode fait intervenir essen tiellementtroisaspects:larepr´esentation,l’estimation desparam`etresdesdensit´esdeclassesetl’estimation des fonctions de partition. Nous utilisons une nouvelle repre´sentationdecaract`eresArabesenlignebase´esur les distributions empiriques (histogrammes) de tangentes etdediffe´rencesdetangentesa`despointsr´egulie`rement espac´essurletrace´descaracte`res.Lesparam`etresdes densit´esgibsiennesdesvecteursderepre´sentationsont estime´es via le principe du maximum d’entropie. Finale ment,lesfonctionsdepartitiondecesdensit´essontes tim´eesa`uneconstantemultiplicativecommunepr`es.Deux me´thodesd’estimationdecesfonctionsdepartitiononte´t´e conside´re´es : une me´thode directe et une autre indirecte. Pouraccroˆıtrelestauxdereconnaissancedelaclassifi cationbay´esienne,nousavonsconsid´ere´unecombinaison declassificateurs.Larepre´sentationetlesm´ethodesdere connaissance de´veloppe´es ont e´te´ valide´es sur une base de donne´es de caracte`res Arabes isole´s enligne contenant 9504´echantillons´ecritspar22scripteurs. Mots Clef Classification bayesienne, caracte`res Arabes enligne, maximum d’entropie, estimation de densite´s. Abstract This study investigates a Bayesian method for online Ara bic character recognition where the class probability den sities are estimated using the maximum entropy principle. We used a new shape representation based on the empiri cal distribution of features such as tangents and tangent differences at regularly spaced points along the charac ter signal. The classconditional density functions of the characteristic vector are learned from a maximum entropy formalism, resulting in Gibbs densities. The parameters of
these densities are determined by gradient descent and sto chastic sampling. The classconditional partition functions are estimated from these parameters. We investigated two methods of partition function estimation : one uses the trai ning data directly, the other samples from a refrence distri bution. The corresponding Bayesian method, and a combi naison of these, are tested on a database of online Ara bic characters containing 9504 samples from 22 scriptors, yielding promising results. Keywords Bayes classification, online Arabic characters, maximum entropy, density estimation. 1 Introduction Dansunevari´et´ededisciplinesallantducodaged’images a` la reconnaissance de formes, intervient l’estimation de fonctionsdedensite´deprobabilite´`apartird’unensemble d’e´chantillonsd’entraıˆnement[7,17].Citonsquelques examples.Encodaged’images,l’efficacit´ed’uncodepeut se mesurer en termes d’entropie [15, 4], et donc en termes deladensite´deprobabilit´esousjacente,f, de la classe d’imagesconsid´ere´esd’o`ul’importanced’uneestimation fid`elepde la densite´ re´ellef. En vision par ordinateur, ladensit´efrpoiiradledelea’nslaforleted`mor`eefl mulationbay´esiennedediversproble`mes,telsquelecal cul et l’interpre´tation du mouvement, la restauration et la segmentation d’images. En mode´lisation et synthe`se d’images, l’objectif consiste a` estimerf`araprdtine’un sembled’imagesd’uneclassedonn´ee.Cetestime´peutnon seulementservir`al’analysedecesimages,maispermet ´egalementd’eneffectuerlasynth`eseen´echantillonnantla densit´e[17].Finalement,dansledomainedelareconnais sance de formes, qui nous interesse ici, l’estimation d’un mode`ledeprobabilit´epourchaqueclassed’unensemble declassesdeformespermetded´evelopperdesclassifi cateursbayesiens.L’estimationdesdensit´esdeprobabilite´ declassesa`partirdedonne´esd’entraıˆnementrequiert,en ge´ne´ral, un grand nombre d’e´chantillons, nombre qui varie defa¸conexponentielleparrapporta`ladimensionduvec