Recherche automatique d'antériorités de brevets par la recherche de

De
Publié par

Niveau: Supérieur, Master
Recherche automatique d'antériorités de brevets par la recherche de revendications et de segments proches potentiellement invalidants Nom : MARAZEL Prénom : Edmée UFR Sciences du Langage Mémoire de master 2 professionnel - 20 crédits – Mention Sciences du Langage Spécialité : Modélisation et Traitements en Industries de la Langue Parcours : Traitement automatique du langage écrit et parlé Sous la direction de Thomas Lebarbé Année universitaire 20010-2011 du m as -0 06 31 73 3, v er sio n 1 - 1 3 O ct 2 01 1

  • méthode

  • documents proches

  • developpement de l'outil de recherche de documents proches et de similarites

  • aujourd'hui

  • hui

  • outil

  • traitement automatique du langage

  • brevet


Publié le : mercredi 20 juin 2012
Lecture(s) : 89
Source : dumas.ccsd.cnrs.fr
Nombre de pages : 135
Voir plus Voir moins
Recherche automatique d’antériorités de brevets par la recherche de revendications et de segments proches potentiellement invalidants
Nom :MARAZELPrénom :Edmée dumas-00631733, version 1 - 13 Oct 2011 UFRSciences du Langage
Mémoire de master2 professionnel-20créditsMention Sciences du LangageSpécialité :Modélisation et Traitements en Industries de la LangueParcours :Traitement automatique du langage écrit et parléSous la direction deThomas Lebarbé
Année universitaire 20010-2011
Remerciements
Tout d’abord, je tiens à remercier Loïc Maisonnasse pour m’avoir accueillie au pôle
R&D de TecKnowMetrixet pour m’avoir très souvent aidée (notamment à optimiser nombreux de mes programmes !). Je remercie également mon tuteur académique Thomas Lebarbé pour ses conseils.
Merci à Christophe Lecante pour m’avoir permis de rejoindre TKMpour ces quelques mois.
Merci aussi à Alexia, Vanessa, Hervé et Julien, tous membres de la famille R&D pour leur bonne humeur constante et leur joie de vivre, leur aide et leurs petits gâteaux.
Merci à mes copains/copines de M2 pour ces deux superbes années.
Enfin, merci à ma famille pour leur soutien et à mes ami(e)s Eva, Sarah, Jessica, Mélanie et Vincent pour leurs conseils pétillants
dumas-00631733, version 1 - 13 Oct 2011
Sommaire .......................................................... 6PARTIE 1 -L’ENTREPRISE ET SON SECTEUR D’ACTIVITE .......................................................................................................................... 7CHAPITRE1L’ENTREPRISE .......................................................................................................................... 71.1. Présentation générale ................................................................................................................... 81.2. Domaines technologiques .................................................................................................................. 81.3. Description de la structure l’entreprise 1.4. Historique de.................................................................................................................. 101.5. Fonctionnement de la R&D.............................................................................................................. 10 CHAPITRE2LE SECTEUR DACTIVITE ........................................................................................................ 122.1. L’intelligence économique12................................ . ................................................................ ................ ................................................................................................................... 132.2. Les thèmes de recherche CHAPITRE3L’ENTREPRISE PAR RAPPORT AU SECTEUR5.............................................................................. 1 3.1. La scientométrie : approche originale de TKM5.................................................................................. 1 ................................................................................................................ 153.2. Ses produits et ses services 3.3. Fonctionnement des études .............................................................................................................. 18PARTIE 2 - LE BREVET: OBJET D’ETUDES DESANALYSTES ET DE NOTRE STAGE ........... 21CHAPITRE4DEFINITION DE«BREVET».................................................................................................. . 22 ........................................................................................................................... 224.1. Définition générale ................................................ 234.2. Les brevets aujourd’hui: quelle utilité en soi et pour une entreprise ? ............................................................................................................. 244.3. Court historique des brevets 4.4. Structure d’un brevet ........................................................................................................................ 26................................................................................................................................. 294.5. Revendications 4.6. Quand y a-t-il brevet ? Validité des brevets ....................................................................................... 324.7. Etapes d’un dépôt de brevet........................................................................................ ..................... 35 CHAPITRE5PROBLEMATIQUE ET ETAT DE LART:QUELS SONT LES TRAITEMENTS ET ANALYSES EXISTANTS ....................................................................................................................................... 37SUR LES BREVETS? 5.1. Définition du sujet et objectif poursuivi en réponse aux besoins des analystes ................................... 37.................................................... 385.2. Analyses automatiques de brevets : logiciels existants et méthodes 5.3. Méthodes de détection de plagiat ou de similarités textuelles ............................................................. 43..................................................................................................... 465.4. Mesures statistiques de similarités ........................................ 51CHAPITRE6ETUDE LINGUISTIQUE DES REVENDICATIONS ET DES SIMILARITES 6.1. Création du corpus ........................................................................................................................... 566.2. Etude lexicale des revendications...................................................................................................... 59 6.3. Etude syntaxique des revendications........ 1....................................................................................... .. 6 6.4. Étude et typage des similarités linguistiques présentes : vers une automatisation ? ............................. 63dumas-00631733, version 1 - 13 Oct 2011 PARTIE 3 - CREATION DES OUTILS DE RECHERCHE DE BREVETS PROCHES THEMATIQUEMENT ET DE RECHERCHE DE SIMILARITES AU SEIN DE ... 68REVENDICATIONS POUR UNE RECHERCHE SEMI-AUTOMATIQUE D’ANTERIORITES .......................................................................................................... 69CHAPITRE7OUTILS A DISPOSITION 7.1. Environnement éclipse................................................................ .................... ................................ . 69 .............................................................................................................................. 717.2. Plateforme TKM CHAPITRE8DEVELOPPEMENT DE LOUTIL DE RECHERCHE DE DOCUMENTS PROCHES ET DE SIMILARITES ................................................................................................................................... 74DE REVENDICATIONS .............................................................................................................. 748.1. Problématique approfondie 8.2. Méthodologie générale et objectif réel à atteindre............. 76................................................................. 8.3. Indexation....................................................................................................................................... . 78 .......................................................................................................................... 828.4. Documents proches 8.5. Revendications proches invalidantes/invalidées...................................................................... 84.......... CHAPITRE9ÉVALUATION DES RESULTATS................................................................................ 1................ 9 9.1. Évaluation : définition, mesures et protocole .................................................................................... 919.2. Evaluation de notre méthode............................................................................................................ 94 9.3. Limites de la méthode et de l’outil................................................................................................... 101
3
Introduction
Hier l’informatique, abréviation d’information automatique, rencontrait un problème de taille: comment stocker l’information en grandequantité ? Grâce à la puissance des machines et au progrès constant de la technique, la question n’a plus lieu d’être et paraît aujourd’hui bien désuète: pourtant l’informatique se trouve toujours confrontée à un grand mal. Le problème s’est maintenant déplacé: nous ne sommes plus à la recherche de moyens de stockage ou d’amélioration des temps de traitement mais à la recherche d’un moyen de
traiter efficacement la masse d’information désormais stockée si facilement. L’heure n’est plus
au comment «stocker l’information» mais au « comment la rendre accessible, et ce de façon
intelligente ? ».
En effet, l’information est présente en masse, de façon hétérogène, c'est-à-dire que ses structures et ses sources sont très variées. Et chaque jour voit cette masse grandir inexorablement, toujours plus dense et toujours plus diversifiée. Vouloir classer et traiter cette masse d’information pour en faire émerger celle qui sera la plus pertinente est un des grands défis de l’informatique aujourd’hui qui touche de nombreux domaines: du traitement des
données ou des communications au sein d’une entreprise au domaine de la recherchedocumentaire ou stratégique pour la veilleet l’intelligence économique.L’information stratégique est difficile à recueillir et à analyser pour les entreprises, d’autant plus que l’accès à l’information présente un coût non négligeable. Ainsi un grand nombre d’entreprises sous-traitent de plus en plus leurs besoins à des sociétés de prestations de conseil en stratégie de
l'innovation.
dumas-00631733, vTeercsKionnow1M-e1tr3ix,O uctne20so1c1iété de conseil en stratégie de l’innovation où s’effectue le stage, se trouve justement au croisement de la veilleet de l’intelligence économique. Son but est d’aider ses clientsà comprendre leur environnement afin d’établir des pistes de
développement ou d’innovation. Pour cela, elle doit appréhender rapidement quels sont les acteurs technologiques du domaine du client, en collectant l’information présente sous les formes les plus diversifiées et les plus larges possibles… informationsrécupérées qu’il faut ensuite traiter…
Les brevets et publications sont les principales sources de renseignements et sont par la même occasion les plus utilisées chez TecKnowMetrix car ils sont d’excellents indicateurs de l’innovation, de la création de nouvelles technologies car ils reflètent l’implication des acteurs dans une nouvelle technologie et contiennent de nombreuses informations. Cette
information dite « blanche », bien que payante car présente sur des bases de données est tout à
fait légale. TecKnowMetrix,nous l’avons dit, aide à positionner sur le marché des clientset il est intéressant pour eux de savoir si le produit qu’ils veulent vendre pourra être breveter et n’est pas déjà en vente ou utilisé. Dans le cas contraire utiliser l’information brevet permet de trouver d’autres fins commerciales que prévues à un produit et permet ainsi de découvrir un nouveau marché prometteur. A l’inverse, un client qui a déjà mis en vente un produit peut vouloir savoir où en est la concurrence (c’est typiquement une étude de veille) et pourquoi pas
la freiner: pouvoir invalider le brevet d’un concurrent est une possibilité.Dans tous les cas il devient indispensable de traiter l’information brevet de façon pertinente et rapide et de proposer de nouveaux outilsqui permettent d’aider les ingénieurs
d’études à traiter cette masse d’information.
Notre stage, qui s’effectue ainsi dans ce large domaine du traitement de l’information et de la veilleau sein de l’entreprise TecKnowMetrix située à Voiron (Isère) a pour but de mettre en place une méthode et un outil qui permette automatiquement de relever tout brevet susceptible d’en invalider un autre.Le stage a une durée de 5 mois et se déroule au sein du pôle Recherche et Développement de l’entreprise.
Ainsi, tout d’abord, nous commencerons par présenter l’entreprise dans laquelle le stage a été effectué (Chapitre 1 ) ainsi que le secteur de l’intelligence économique (Chapitre 2) dans lequel la société se situe afin de voir les différents produits qu’elle propose (Chapitre 3). dumas-0063C1e7c3i3,novuesrsaiomnèn1er-a1à3Onoctus20d1e1mander sur quels supports informationnels les ingénieurs d’étudestravaillent et nous définirons par conséquent le support brevet qui s’avère être leur principal outil (Chapitre 4). Un état de l’art nous permettra alors de déterminer quels sont les outils et les méthodes existantes afin de traiter les brevets (Chapitre 5) que nous finirons par étudier linguistiquement afin d’en faire ressortir les régularités lexicales et syntaxiques (Chapitre 6). Puis nous exposerons les divers outils à notre disposition (Chapitre 7) pour ensuite expliquer la problématique ainsi quela méthodologie mise en œuvre pour parvenir à nos fins (Chapitre 8). Nous détaillerons par la même occasion les tâches à effectuer et nous finirons par évaluer les résultats obtenus (Chapitre 9) afin d’en tirer des conclusions pertinentes.
5
L’entreprise etson secteur d’activité
dumas-00631733, version 1 - 13 Oct 2011
Partie 1
-
6
Chapitre 1L’entreprise
Il convient maintenant de présenter la structured’accueil où le stage a été effectué.
1.1. Présentation générale
TecKnowMetrix SAS (pourTechnology, Knowledge et Metrix abrégé en TKM) est une jeune entreprise puisqu’elle a été créée en 2004 et n’emploie qu’un petit nombre de salariés, ce
1 qui fait d’elle une PMEpuisque ces derniers sont environ une vingtaine seulement.
Elle est une société de conseils et services en innovation de par son activité principale quirelève du conseil en stratégie de l’innovation technologique ainsi qu’en valorisation de la propriété intellectuelle. Elle réalise par la même occasion des études de marché et des cartographiesde compétences, lesquelles définissent les compétences d’une entreprise ce qui permet de prendre en compte ses éventuelles évolutions, ses points forts ou ses points faibles afin de s’imposer ou de changerde direction sur le marché. TKM aide ainsi les entreprises à prendre des décisions concernant leur évolution sur les plans marketing ou de la recherche.
Ainsi, chaque client demande à TKM, via des études spécifiques sur un aspect innovant, des conseils pour leur entreprise afin de dégager quels sont leurs principaux concurrents et voir quels sont les axes où la concurrence est plus rude ou plus faible. Tecknowmetrix propose donc un état des lieux du sujet afin de savoir comment le client se situe face au marché, puis détermine des axes potentiels de développement en présentant les compétences à valoriser afin d’y parvenir.dumas-00631733, version 1 - 13 Oct 2011 Tecknowmetrix est donc une société de veillede l’information,domaine sur lequel nous reviendrons un peu plus loin, qui s’appuie aussi bien sur des statistiques économiques, des bases de données de brevets, des publications, des rapports d’entreprises ou des sites web,
ou bien encoredes réseaux d’experts afin de collecter le plus d’informations possible afin de répondre correctement aux besoins des clientset de ne pas passer à coté d’une source d’information originale. La société ne livre pas quedes rapports ou synthèses aux clients, elle
propose également des outilsqu’elle développe. En effet, TecKnowMetrix conçoit des logiciels, des plateformes dedata-mining, d’analyse de l’information et dedes visualisation résultats.
1 PME : Petite et Moyenne Entreprise
7
1.2. Domaines technologiques
TecKnowMetrix est une entreprise spécialisée dans la collecte, le traitement et l'analyse de l'information concernant l'innovation et la recherche quel que soit le domaine technologique mais est également spécialisée dans les domaines suivants : biotechnologies, santé, transport, énergies/environnement, électronique, système embarqués et TIC (Technologies de l’Information et de la Communication), matériaux, aérospatial, la société
essayanttoujours de s’ouvrir sur de nouveaux horizons.
1.3. Description de la structure
2 L’entreprise se présente par sa forme juridique comme une Société par Actions Simplifiée (SAS). Elle se doit donc d’être constituée de personnes physiques ou morales et ne 3 peut faire publiquement appel à l’épargneafin d’être financée. Sa forme juridique influence son fonctionnement puisqu’une SAS ne peut être dirigée que par une seule personne, en
général le directeur général, appelé aussi le président, qui est donc le seul responsable de l’entreprise. En effet, une SAS, par définition, ne peut avoir de réel conseil d’administration qui soit responsable, c'est-à-dire que si ce dernier existe, il ne peut être remis en cause pour
manquements ou infractions car celles-cine peuvent être qu’imputées au seul président. Ainsi,
l’uniqueorgane de direction obligatoire est le président qui représente la société et qui est le seul à pouvoir décider d’un transfert de siègesocial ou de changement de nom de la société par exemple.
L’entreprise,située à Voiron en Isère, est aussi le siège social, mais elle possède également quelques implantations partout en France puisque certains salariés se trouvent à dumas-00631733, version 1 - 13 Oct 2011 Lyon, Montpellier, Toulouse et Paris (tout récemment). D’ailleurs, la société est aussi présente
à l’étranger à Barcelone.
TecKnowMetrix se divise en plusieurs pôles que sont le pôle commercial, le pôle « conseil et services » anciennement nommé la production, le pôle administratif et enfin, le pôle de Recherche et Développement communément abrégé en R&Ddans lequel s’effectue le stage. Les trois pôles sont extrêmement liés et interactifs les uns avec les autres, chacun étant complémentaire.
2 Forme juridique : En France, la forme juridique d'une entreprise est un des éléments de son statut. C'est une des données qui décrit les principales caractéristiques d'une entreprise. 3 http://www.cma-isere.fr/a308-SAS-.html
8
Nous pouvons définir l’organisation de l’entreprise suivant cet organigramme:
Service Administratif (2)
Commerciaux (3)
Directeur Général (1)
Services et conseils (production - 4)
Schéma 1 :Organigramme de l’entreprise
Recherche et Développement (R&D - 5)
Ainsi, la direction de l’entreprise (1) est assurée par le Président Directeur Général qui
est M. Christophe Lecante. Le service administratif (2) consiste à gérer le personnel et les ressources de la société. La mission des commerciaux (3) consiste à trouver de nouveaux clients ou des relations avec
des partenaires, garder le contact avec des entreprises pour un suivi personnalisé, établir des contrats ou des devis suivant les besoins des clients et à créer des événements ou à y participer (conférences, séminaires…). Le pôle «» (4) répond aux demandes desservices et conseils clients en produisant les rapports ou synthèses des études sollicitées qui leur seront donnés en respectant les délais imposés par le contrat et établit les veilles. Enfin, le pole de Recherche et dumas-00631733, version 1 - 13 Oct 2011 Développement (5) met en place des outils nécessaires aux producteurs et s’adapte aux
besoins et demandes des clients transmisesviales commerciaux. C’est la R&Dqui définit si un
outil sera long à développer voire impossible à mettre en place. Mais ce dernier ne consiste pas seulement à développer des outils (que nous détaillerons plus loin) mais participe à la recherche de nouvelles méthodes, de nouveaux outils ou d’améliorations de traitements afin de proposer des services toujours plus novateurs et performants. D’ailleurs, l’aspect recherche est très présent dans l’entreprise puisqu’elle possède une salariée embauchée en contrat CIFRE (Convention Industrielle de Formation par la REcherche), ce qui signifie que l’entreprise embauche un doctorant qui participe à la vie de l’entreprise mais qui est aussi
rattaché à un laboratoire afin de faire un travail collaboratif entre le monde du travail et celui
de la recherche.
9
1.4. Historique de l’entreprise
TecKnowMetrix a été créée en août 2004 et est née par essaimage (aussi appelé transfert de technologies) de l’INRA et de l’Université Pierre Mendès France c'est-à-dire que TKM est en quelque sorte unespin-offde l’Institut National de Recherche Agronomique 4 (INRA). La société estégalement issue de l’incubateur Grainest une structure qui qui accompagne la naissance de start-up et plus généralement de nouveaux projets de création d’entreprises qui se veulent innovantes et à visée technologique.L’entreprise est née des travaux de quatre chercheurs que sont Marie Angèle De Looze, Roger Coronini, Pier Palolo Saviotti et Shyama V Ramani qui pendant près de 10 ans 5 ont travaillé sur l’analyse de l’innovation dans les biotechnologies. Shyama Ramani est d’ailleurs unedes fondatrices de TKM.
En 2008, TKM a été labellisé par OSEO « entreprise innovante ».
Les clients de la société sont issus de tous les horizons : start-up, PME, laboratoires universitaires ou privés, institutions (régions, villes, agences publiques), grands groupes industriels mais aussi des acteurs du développement économique ou de l’innovation (agence de création d’entreprises, incubateurs, fonds d’investissements européens). La société a également mis en place des partenariats avec des organismes de recherchetelle l’ANR(Agence
Nationale de Recherche).
Elle fait partie du réseau Curie qui est une association dédiée à la valorisation de la recherche et au transfert de technologies, du réseau OpticsValley, et LES (Licensing Exécutive Society International). Aujourd’hui, l’entreprise réalise 1 million d’euros de chiffre d’affaires.dumas-00631733, version 1 - 13 Oct 2011 1.5. Fonctionnement de la R&D
Le département de Recherche et Développement a des objectifs à réaliser à courts et longs termes. Ainsi, concernant le développement, en fonction des besoins des clients, des
interfaces doivent être déployées ou mises à jour tout comme de nouveaux outils qui sont aussi créés, tels des graphiques, des nouveaux filtres de recherche… Parallèlement, l’aspect recherche ne doit pas être oublié car il est aussi le support des avancées de l’outil de TKM: la recherche s’intègre donc dans le développement et permet l’innovation en matière de
4 Pour plus d’informations:http://www.grain-incubation.com/mission.php5 Qui ont d’ailleurs publié un article sur la scientométrie: « Using patent statistics as knowledge base indicators in the biotechnology sectors : An application to France, Germany and the U.K»paru en 2002 dansScientometrics.
10
recherche d’informations, de visualisations de résultats ou d’intégration de nouveaux outils potentiellement utiles pour le pôle « conseils et services ». La recherche se traduit par des conférences, des séminaires et des publications.
La R&Da pour but de fournir à l’entreprise des outilsqui soient donc innovants et qui permettent de se différencier sur le marché, mais aussi de permettre un gain de productivité pour les producteurs ou les clients. Pour cela, elle privilégie une programmation objet qui permet d’avoir un code clair et aussi plus facile à réutiliser, réorganise les bases de
données afin de réduire le temps de traitement des données (Refactoring), utilise un développement unique, c'est-à-dire que le code reste le même, il est ensuite seulement adapté ou amélioré en fonction des demandes, et pour finir, la méthode de travail mise en place est la méthode de développement appelé « méthode agile ». Celle-ci se centre sur plusieurs principes : le travail de développement est découpé en tâches dont le temps est estimé en points pour chacune d’entre elles lors d’une réunion effectuée toutes les 2 semaines (sprint) ce qui permet de créer un planning pour 10 jours. Chaque tâche, représentée par unitemsoit un post-itne doit pas excéder 2 jours de travail et est priorisée : si une tâche est plus importante
qu’une autre, elle devient prioritaire parmi les autres. Les deux semaines se terminent par une realeaseeffectuée, c'est-à-dire une mise en ligne à disposition des utilisateurs, en fin de semaine et par des tests afin de trouver les éventuelsbugsproblèmes. De plus, est mis en place ou chaque jour ledaily scrum qui consiste en une petite réunion de 15 minutes lors de laquelle chaque membre de l’équipe explique ce qu’il a fait la veilleet ce qu’il lui reste à faire. Ainsi,
l’équipe est dynamique et réactive face au changement.
dumas-00631733, version 1 - 13 Oct 2011
11
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.