Skip to content
Effectuer une recherche pour en savoir plus sur les produits et solutions InterSystems, les offres d'emploi, etc.

Analyse de texte ascendante automatique : un monde de différence

Dans les entreprises, environ 30 % des données sont stockées de manière structurée dans les bases de données. Cependant, la grande majorité des données est répartie sur des formulaires, des e-mails et des fichiers. Comment dès lors extraire les informations de cette montagne de données sans que cela ne demande trop d'effort ou d'argent ? Par l'analyse automatique des textes présents dans l'entreprise et la catégorisation du contenu avec un outil d'analyse de texte innovant. Cette méthode peut fournir des informations très intéressantes, comme des rapports de médecins dans les dossiers des patients.

Analyse des chiffres...

Au cours de la dernière décennie, l'évolution dans le domaine de l'intelligence économique a porté principalement sur les chiffres et les nombres. C'est surtout le secteur financier qui dispose et a besoin de données chiffrées. De ces données peuvent être extraites beaucoup d'informations utiles.

... et des lettres

Dans le secteur médical, on travaille également beaucoup avec les chiffres, notamment en ce qui concerne les résultats de laboratoire. Mais on ne travaille pas seulement avec ceux-ci. Une grande partie, essentielle, des informations médicales stockées numériquement se compose de textes (rapports de médecins, e-mails, notes). Et ces données ne sont pas utilisées de manière optimale.

Un nombre croissant de secteurs utilisent l'analyse de texte

Différents secteurs utilisent de plus en plus souvent des outils d'analyse de texte. Nous pensons par exemple aux services de recherche (qui recherchent des activités subversives et la charge de la preuve), aux banques (analyse de dossiers pour l'évaluation des risques des emprunts), au marketing (évaluer l'approbation de produits et services sur les médias sociaux), aux centres d'appels (analyse des transcriptions téléphoniques), aux avocats (recherche de liens entre des affaires juridiques), etc.

La numérisation offre des possibilités

Maintenant que la numérisation progresse également dans le secteur des soins, la demande d’outils capables de comprendre les textes, par exemple dans un dossier de patients, a fortement augmenté. Pour l' analyse de ce type de données non structurées, un outil d'analyse de texte est très utile.

Établissement automatique de liens

Auparavant, l'analyse sémantique n'était possible qu'en recherchant des mots clés et des combinaisons de mots. Il convenait alors de déterminer au préalable les éléments à rechercher, souvent à l'aide d'un thésaurus ou de la taxonomie. L'application développée par InterSystems ( iKnow), permet également d'analyser des textes sans un thésaurus prédéfini. Le logiciel recherche lui-même des concepts et les analyse ensuite. Un progrès énorme.

De la recherche à l'exploration

Ici se situe la grande différence avec les anciennes applications d'analyse de texte ; au lieu de rechercher automatiquement des mots dans les textes, les textes sont explorés avec l'outil iKnow. Dirk van Hyfte, conseiller principal Biomedical Informatics chez InterSystems : « Lors d’une recherche, vous partez d'une certaine préférence, d'un sujet particulier. Vous voulez par exemple savoir ce que l'on trouve sur l'hypertension dans vos données. Il s'agit donc d'une opération guidée. Dans l'exploration, l'initiative vient de l'autre côté, de l'outil d'analyse, e, l’occurrence iKnow. Notre outil fournit, sur la base de connaissances acquises, ce qui est important dans les textes ou les concepts qui se présentent régulièrement, ce qui constitue en effet une grande différence avec la recherche. »

L'importance du contexte et des groupes de mots

L'outil d'analyse de texte iKnow examine les groupes de mots et le contexte qui les entoure. « Prenez par exemple la mise en évidence automatique dans les dossiers médicaux qui est souvent réalisée par des outils logiciels. Si vous y regardez de plus près, vous constatez directement des erreurs au niveau sémantique. Le logiciel a pour mission de mettre en évidence partout le mot hypertension. Il le fera correctement dans 70 % des cas, mais pas dans les 30 % restants. Par exemple, l'on trouve dans le texte : « Le patient ne souffre pas d'hypertension » ou « Le patient présente une hypertension pulmonaire aiguë ». Mais il s'agit d'une forme spécifique qui ne peut pas être comparée à une pression artérielle élevée générale. « Voilà pourquoi ces groupes de mots sont tellement importants », explique Van Hyfte.

Résultats surprenants

Cette exploration ascendante des textes présente de nombreux avantages. Les chercheurs s'arrêtent par exemple sur des aspects qu'ils n'auraient jamais pu trouver avec une architecture descendante, qui part des taxonomies avec des termes médicaux. « Descendant signifie des questions prédéfinies. Par conséquent, un entrepôt de données ne peut donner des réponses qu'aux questions intégrées préalablement. Ascendant signifie sans préjugés, et laisser l'exploration à l'outil ». Avec l'exploration ascendante, le responsable informatique découvre ce qui se trouve dans les données, souvent avec des résultats surprenants.

Données de meilleure qualité

L'analyse de texte est non seulement pratique pour la catégorisation des données et pour découvrir les données qui sont maintenant présentes au sein d'une organisation. Mais il s'agit également d'un outil très utile pour améliorer la qualité des textes à analyser. Par exemple, toutes les données des fichiers bruts sont-elles parvenues dans la base de données lors de la numérisation ? N'y a-t-il pas trop de copier-coller dans la saisie des données ?  Cela peut donner l'occasion de consacrer davantage d'attention au processus de saisie des données.

Applications

Vous voulez en savoir plus sur les applications d'analyse de texte automatique ? Lisez le blog en deux parties L'analyse automatique de données non structurées : études de cas. Nous y abordons les différentes applications les plus intéressantes pour l'analyse de texte automatique.

 
Pour en savoir plus :

NLP et Covid-19

 

 Crédits photos:  Medische gegevens, Inzichten, Concepten, Uitkomsten

RELATED TOPICS