Nezha CHERRABI EL ALAOUI

Madame Nezha CHERRABI EL ALAOUI

doctorante au laboratoire « Institut méditerranéen des Sciences de l’Information et de la Communication » (IMSIC), rattachée à l’école doctorale 509 « sociétés méditerranéennes et sciences humaines »,

sous la direction de David Reymond, maître de conférences-HDR et Jean-Max Noyer, professeur des universités émérite à l’université de Toulon,

soutiendra publiquement sa thèse en vue de l’obtention du doctorat en Sciences de l’Information et de la Communication, sur le thème suivant :

« Un prisme sémantique des brevets par thésaurus interposés : positionnement, essais et applications »

le vendredi 11 décembre 2020 à 10h00 à l’université de Toulon, campus Porte d’Italie, bâtiment BAOU, salle BA 510

Pour le public, cela se fera par visio-conférence dont le lien de connexion est accessible sur demande auprès de la doctorante concernée (nezha-cherrabi-el-alaoui@etud.univ-tln.fr). Le nombre de connexion sera limité

Composition du jury :

Monsieur Imad Saleh, professeur des universités à l’université de Paris 8, Dépt. Hypermédia (rapporteur),

Monsieur Lamirel Jean-Charles, maître de conférences-HDR à l’IUT Robert Schuman à Strabourg, (rapporteur),

Madame Cherifa Boukacem, professeure des universités à l’université Lyon 1, Dépt. Informatique, (suffragant),

Madame Favier Laurence, professeure des universités à l’université de Lille 3, Laboratoire GERiiCo, (suffragant),

Monsieur Noyer Jean-Max, professeur des universités émérite à l’université de Toulon, (co-directeur de thèse),

Monsieur David Reymond, maître de conférences-HDR à l’université de Toulon, (directeur de thèse)

Résumé :

Nous vivons dans une société caractérisée par une obésité des données non raffinées disponibles dans différentes bases de données. Un écosystème où règne de l’information polluée qui empêche la transformation d’un nombre d’informations en connaissances productives, dans ce sens les chercheurs dans le domaine de la recherche de l’information ont toujours insisté sur l’usage de l’information pertinente.

Historiquement, la maitrise de l’information a été toujours l’enjeu de l’humanité pour conserver sa survie, à présent l’information doit être d’un degré de fiabilité suffisant pour éviter de polluer les connaissances. Le brevet est une source multidimensionnelle, source de premier plan en matière d’information.

L’analyse instrumentée des données brevets devient une nécessité et constitue, pour les entreprises, les industriels et l’État, une ressource de mesure la plus efficace de l’activité inventive, pour une approche objective.

La recherche dans les bases de données brevets est une tâche complexe pour plusieurs raisons, le nombre de brevets existants est très élevé et augmente rapidement, la recherche par mot clé ne parvient pas à des résultats satisfaisants, les grandes entreprises ont recours à des professionnels capables de faire des recherches ciblées et efficaces, ce qui n’est pas souvent le cas pour les chercheurs universitaires, étudiants et d’autres profils.

D’où la nécessité de l’intervention de la machine pour aider les experts et les non experts à mieux exploiter l’information en matière de brevets et démocratiser son usage. Ainsi, nous proposons une méthode d’accompagnement de l’usager à l’utilisation de cette documentation.

Une voie qui s’appuie sur un référentiel normalisé des principes techniques imaginés par l’homme eux-mêmes décrits par des ensembles terminologiques que nous combinons avec des outils de traitement automatique des langues (TAL) pour s’absoudre des formes rédactionnelles des brevets et pour étendre les vocabulaires associés.

Mots clés : Analyse des données, Triz, P2N, TAL, Datavisualisation, annotation sémantique, apprentissage automatique, brevets

Abstract :

We live in an information society, characterized by an explosion of data available on the web and in different databases. Researchers in the field of information stress the need for relevant information.

Information literacy has always been the challenge for humanity to maintain its survival, now information must be of a sufficient degree of reliability to avoid polluting knowledge. The patent is a multidimensional source, a leading source of information.

The instrumented analysis of patent data is becoming a necessity and constitutes, for companies, industrialists and the State, a resource for the most efficient measurement of inventive activity, for an objective approach. Searching patent databases is a complex task for several reasons, the number of existing patents is very high and increasing rapidly, keyword searches do not yield satisfactory results, large companies use professionals capable of performingtargeted and efficient searches, which is often not the case for university researchers, students and other profiles.

Hence the need for the machine to help experts and non-experts alike to better exploit patent information.

Thus, we propose a method to accompany the user in the use of this documentation.

This method is based on a standardized reference system of man-made technical principles, which are themselves described by terminology sets that we combine with natural language processing (NLP) tools to dispense with the editorial forms of patents and to extend the associated vocabularies.

Keywords : data analysis, Triz, P2N, TAL, Datavisualisation, semantic annotation, machine learning, patents