P. Constant (Pertimm) : «Limiter le silence des moteurs de recherche avec des résultats pertinents»

La start-up française Pertimm développe une plate-forme de création de moteurs de recherche sur mesure pour…
Vous êtes ici : Accueil » Interviews » Technologies
26
La start-up française Pertimm développe une plate-forme de création de moteurs de recherche sur mesure pour répondre aux besoins et spécificités des entreprises.
Créée en 1997 par Jean Poncet, Xavier Mignon et Patrick Constant, trois ingénieurs experts en intelligence artificielle, la société Pertimm développe sur mesure des moteurs de recherche basés sur la linguistique et la sémantique pour les entreprises. Composée d'une vingtaine de personnes, essentiellement des équipes de R&D, Pertimm a obtenu le Label Startup innovante de l'Anvar (Oseo aujourd'hui) en 2004 et participe à plusieurs projets de développements dont Infomagic (autour de l'analyse de l'information) et DoXa (autour du traitement automatique des opinions et des sentiments sur la toile). Deux projets soutenus par la Direction générale de la compétitivité, de l'industrie et des services (DGCIS) du ministère de l'Industrie et coordonnés par Thales Communications.
Financée en fonds propre par ses fondateurs, Pertimm a réalisé 1,6 million d'euros de chiffre d'affaires en 2008, en constante progression depuis la présentation de son premier produit en 2000. L'entreprise qui compte PagesJaunes.fr, la Nasa, EADS, Meetic, l'IRSN (Institut de radioprotection et de sûreté nucléaire) ou le CNRS envisage potentiellement de faire intervenir un investisseur pour accélérer et consolider les activités. Patrick Constant, PDG de Pertimm, revient sur l'approche technologique et ses modes de déploiement. Basé à Asnières-sur-Seine (banlieue parisienne), Pertimm possède des bureaux à Valence et aux Etats-Unis.
eWeek.fr : En quoi Pertimm se distingue des offres concurrentes en matière de recherche?

. Il y avait déjà des moteurs intégrant les aspects linguistiques mais ils étaient très lents. Notre objectif était de développer un moteur efficace et pertinent, en traitant la linguistique au niveau de la lemmatisation [regroupement des différentes formes que peut emprunter un mot : genre, nom, pluriel, verbe, etc., ndlr] et la phonétique de manière efficace. Nous introduisons ces aspects de linguistique au niveau de l'indexation des données. Lesquelles peuvent être structurées ou non. Notre objectif est que l'outil réponde le plus rapidement possible à l'utilisateur. Nous sommes capables d'indexer des centaines de millions de pages. A titre d'exemple, Pertimm équipe Pagesjaunes.fr qui enregistre 11 millions de visiteurs par jour, soit environ 150 millions de requêtes sur 5 machines, sachant qu'une requête utilisateur correspond à une quinzaine de requêtes moteur.
eWeek.fr : Pourquoi cette technologie donne des résultats différents des solutions basées sur la statistique?
Patrick Constant : Dans le cas des requêtes longues, les moteurs traditionnels ne révèlent que peu de réponses pertinentes si la linguistique n'est pas prise en compte car la combinatoire des phrases limite les résultats. Rien qu'avec quatre formes différentes par mot, sur une requête de 5 mots on obtient une dizaine de millions de résultats possibles. Donc 10 millions de résultats en moins du côté des moteurs classiques. La linguistique associée à la statistique donne des résultats assez différentiateurs.
Ce qu'on cherche à faire est d'élargir les réponses en interprétant la requête de l'utilisateur. On veut limiter le silence mais obtenir des résultats pertinents.
eWeek.fr : Votre technologie fonctionne-t-elle pour toutes les langues?
Patrick Constant : Oui. Dès le départ nous avons travaillé en Unicode [norme informatique visant à coder les systèmes d'écriture de manière unifiée quel que soit le logiciel utilisé, NDLR], ce qui permet à nos technologies d'être multilingues. Si aujourd'hui l'Unicode s'est développé dans le public via l'UTF-8, ce n'était pas évident en 1997. Avec l'Unicode, les moteurs peuvent traiter toutes les langues même si, pour les langues comme l'arabe ou l'allemand, on continue de faire appel à des dictionnaires relativement simples.
eWeek.fr : Vous adressez des clients prestigieux comme EADS, la Nasa, le CNRS... Quelle est votre stratégie commerciale?
Patrick Constant : Pertimm propose une approche en plusieurs phases, plus un service de consultant. Nous nous positionnons comme architecte du système d'information du client pour comprendre ce qui va l'intéresser et ainsi définir où et comment intégrer le moteur dans leur SI. On agit en assistance de maîtrise d'ouvrage avec l'idée de minimiser l'impact sur le SI. En général, on se contente de recommander des optimisations sur certaines zones. Dans 99 % des cas, il est inutile de changer l'infrastructure du SI.
Cela nous permet de préconiser une solution sur mesure construite à partir de notre plateforme de génération de moteurs de recherche. Pour faire une analogie avec l'industrie automobile, notre plate-forme Pertimm nous donne la capacité à répondre aux besoins précis du client. On travaille de plus en plus secteur par secteur selon les besoins depuis notre plate-forme. Son évolution bénéficie ainsi directement aux moteurs.
D'autre part, les moteurs que nous fournissons sont facilement paramétrables pour gérer les évolutions en fonction des besoins du client. Le produit fourni est extrêmement paramétrable par le client lui-même.
Par ailleurs, nous fonctionnons aussi bien en mode SAAS (Software as a service) que chez le client. Tout dépend de la confidentialité des données qu'y accorde le client. L'architecture SAAS peut être intéressante pour les plus petites structures.
eWeek.fr : Quels sont les freins ou les difficultés récurrentes que rencontre votre technologie?
Patrick Constant : Le frein principal est le Web car son approche demande une puissance machine phénoménale à cause de la taille de l'index que l'on estime autour d'une centaine de milliards de pages aujourd'hui.
En entreprise, nous ne rencontrons pas réellement de freins mais les difficultés se concentrent sur la disparité des informations qui peuvent se trouver sur plusieurs disques durs, dans des bases de données, en intranet, extranet, Internet... Rassembler l'ensemble des données sur le moteur nécessite une adaptation car chaque entreprise est un cas particulier.
La gestion des droits d'accès aux différents documents peut également être problématique. Le moteur doit importer la gestion des profils afin que les résultats fournis ne soient accessibles que par les bonnes personnes. Par exemple, seul le service comptabilité doit avoir accès aux documents comptables, etc. La solution préconisée passe soit par l'exploitation de plusieurs moteurs différents, soit par un unique moteur qui intègre les règles des annuaires LDAP. Les grandes entreprises utilisent généralement plusieurs moteurs.
eWeek.fr : Quels sont les développements en cours?
Patrick Constant : Nous avons démarré un travail d'études sur la traduction. Les travaux sont en cours au niveau du moteur de recherche avec pour objectif l'obtention automatique de ressources de traduction. Cela permettra de fabriquer un dictionnaire d'équivalences pour la recherche translangues, afin de rechercher dans une langue pour obtenir des résultats issus d'une autre langue. Il s'agit d'une thèse sur 3 ans en collaboration avec le GREYC (Groupe de REcherche en Informatique, Image, Automatique et Instrumentation de Caen), un laboratoire de l'Université de Caen. Nous avons déjà un produit mais nous préférons renforcer le dictionnaire et les ressources pour améliorer le moteur translangues.
Un autre axe de développement en cours concerne le projet Infomagic du Pôle de compétitivité Cap Digital. Le projet est géré par Thales et bénéficie de 56 millions d'euros de budget. Nous intervenons au niveau 1 pour le traitement des données numériques. Nous avons apporté un moteur de recherche sémantique sur le web. Ce qui nous a permis de voir ce qu'il était possible de faire en matière d'extraction et de traitements et d'intégrer ces évolutions dans nos produits.
eWeek.fr : Projetez-vous de développer une vitrine technologique sur le Web comme l'a fait Exalead?
Patrick Constant : Nous l'envisageons mais ne sommes pas décidés. Si nous nous lançons sur le Web, ce sera effectivement uniquement pour l'aspect vitrine. Mais rien de concret à annoncer aujourd'hui.
(Propos recueillis le 23 mars 2009.)

La start-up française Pertimm développe une plate-forme de création de moteurs de recherche sur mesure pour…