NLP : trouver les mots justes pour combattre le Covid-19 ?

06 mai 2020

Benjamin DeBoe, System Development, Product Manager

La pandémie de COVID-19 pose un défi sans précédent à notre société et à notre économie. Vous vivez peut-être avec de jeunes enfants qui testent les limites de vos écouteurs, ou peut-être êtes-vous tout seul et vous comptez sur des outils comme Skype, WhatsApp et votre téléphone pour rester en contact avec vos amis les plus proches.

Cette période complexe nous pousse à innover : trouver de nouvelles manières de divertir les enfants, découvrir des endroits agréables pour se promener, s’inventer de nouveaux passe-temps grâce à la lecture ou en regardant des webinars. Beaucoup d’entre nous sont devenus des chercheurs, essayant de découvrir des « trucs » qui auraient de l’intérêt, sans savoir exactement ce que nous recherchions au départ.

Les chercheurs et scientifiques font cela presque tous les jours, naviguant parmi les connaissances disponibles pour trouver des morceaux d’informations à approfondir, et ainsi trouver l’inspiration pour de nouvelles expériences qui finissent par être sources de valeur.

Il y a environ un mois, j’ai appris que l’Institut Allen pour l’Intelligence Artificielle avait mis gratuitement à disposition un vaste ensemble d’articles issus de la recherche scientifique relatifs au COVID-19 et aux coronavirus. Leur objectif était d’encourager et d’accélérer l’innovation pour lutter contre la pandémie, en supprimant les barrières d’abonnement et autres licences qui, autrement, restreignaient l’accès à ces connaissances disponibles.

Le corpus nous a offert 44 000 articles scientifiques. Cela va certainement tenir les enfants occupés jusqu’à la réouverture des écoles (imaginez le plaisir que votre enfant de deux ans aurait avec cela et une paire de ciseaux !), et cela encouragera probablement aussi beaucoup d’entre eux à aller se promener pour s’éloigner d’une pile de recherches aussi dense. Mais elle représente aussi un défi technologique, et c’est essentiellement pour cette raison que l’Institut Allen l’a publiée. La mise en ligne de cet énorme ensemble de données exige une utilisation intelligente de la technologie — et c’est exactement ce que nous nous sommes sentis obligés de faire.

Cela fait dix ans que je travaille avec la technologie de traitement du langage naturel (NLP) d’InterSystems, qui se concentre sur l’analyse ascendante des textes libres. Ce qui la rend unique c’est qu’elle se concentre sur les modèles de langage naturel. Elle n’a donc pas besoin d’être « experte » d’un sujet ou d’un champ lexical particulier. Cela signifie qu’elle est impartiale et particulièrement utile pour examiner des données que vous ne connaissez pas au départ, comme les 44 000 articles scientifiques sur les coronavirus.

J’ai donc conçu et appliqué notre outil de NLP — qui est disponible en open source au corpus de l’Institut Allen — et l’ai publié comme « navigateur de contenus » sur Open Exchange — gratuit pour tous.

Ce qui a commencé comme un rapide examen de viabilité s’est avéré fonctionner assez bien, et nous avons décidé de proposer notre expérience aux participants du hackathon COVID-19 Challenge du MIT, où elle a été utilisée par plusieurs équipes. Nous offrons maintenant le code et une version hébergée de ce navigateur de contenus à tous ceux qui souhaitent fouiller dans ce vaste océan de connaissances. Nous recherchons aussi activement des utilisateurs qui voudraient aller plus loin et intégrer ce code dans une solution, surtout s’il peut être utilisé pour aider à mettre fin à la pandémie — et nous faire sortir de chez nous.

Si vous souhaitez nous aider, envoyez un courriel à IRIS@InterSystems.com ou envoyez un message sur la plateforme GitHub avec vos questions, idées et autres commentaires. Il est temps d’innover et de nous sortir de cette crise !

Pour en savoir plus, découvrez la série de webinars IRIS 2020.1 Tech Talk

Benjamin DeBoe, System Development, Product Manager

Pour en savoir plus sur l'auteur

NLP : trouver les mots justes pour combattre le Covid-19 ?

Créez des applications critiques et exigeantes en données avec InterSystems IRIS. Commencez à coder dès à présent.