Skip to content
Use the search to find information about InterSystems products and solutions, career opportunities, and more.

Ongestructureerde Big Data analyseren

Ongestructureerde Big Data analyseren

Van stapels patiëntendossiers naar bruikbare nieuwe inzichten

Gegevensbronnen kunnen allerlei vormen hebben: van gestructureerde rijen getallen tot ongestructureerde teksten zoals aantekeningen. Juist die laatste categorie kan zeer bruikbare informatie opleveren. Mits de gegevens snel en makkelijk te analyseren zijn. Daarvoor is een handige technologie ontwikkeld: een speciale vorm van tekstanalyse waarmee snel en automatisch interessante concepten uit grote hoeveelheden ongestructureerde gegevensbronnen gefilterd kunnen worden.

Aantekeningen

In medische omgevingen zijn veel bruikbare gestructureerde gegevensbronnen aanwezig, zoals het verloop van testresultaten door de tijd en gecodeerde gegevensvelden. Maar de meest waardevolle informatie staat vaak in de aantekeningen van een specialist: gegevens over een gesprek met de patiënt, indrukken, de onderbouwing van een diagnose, de opdracht voor een test, de conclusies die getrokken zijn uit verschillende testresultaten, et cetera.

Hoewel deze aantekeningen in toenemende mate gedigitaliseerd worden, worden ze nog nauwelijks geanalyseerd. En dat is zonde. De manier waarop deze enorme hoeveelheden ongestructureerde gegevens als informatiebron gebruikt kunnen worden, is door tekstanalyse-technieken in te zetten.

De kracht van tekstanalyse

Als we alleen maar willen weten uit hoeveel woorden een document bestaat of hoe vaak een woord opduikt, is tekstanalyse niet echt nodig. Dit kan bepaald worden met een eenvoudig, geheel wiskundig algoritme. Maar hoe zit het als we complexere vragen willen beantwoorden, zoals:

  1. Hoe vaak komen bepaalde symptomen en medicijnen tegelijkertijd voor in patiëntendossiers?
  2. Drukt een tekst een positief of een negatief gevoel uit en op welke concepten is dit gevoel gericht?
  3. Hoeveel teksten hadden maandelijks betrekking op het onderwerp hersenchirurgie?

Voor dit soort vragen kan tekstanalyse gebruikt worden. Tekstanalyse is in dit geval niets anders dan het afleiden van gestructureerde gegevens uit een ongestructureerde tekst. Als een tekst bijvoorbeeld geanalyseerd wordt op de vraag of deze positief is of niet, is het resultaat een gestructureerde gegevenswaarde: de waarde “ja” of “nee”.

Het voordeel van het afleiden van gestructureerde gegevens door middel van tekstanalyse is dat deze nieuw aangemaakte gestructureerde gegevens gemakkelijk gecombineerd kunnen worden met andere gestructureerde gegevensbronnen en met bekende algoritmes verwerkt kunnen worden.

Meer dan een thesaurus

De meeste tekstanalyse-instrumenten vragen echter voorbereidend werk: vooraf moeten een index, thesaurus en ontologie ontwikkeld worden voordat het echte analytische werk kan beginnen. Daarnaast moet het doel van de analyse duidelijk zijn.

Patiëntendossiers kunnen bijvoorbeeld geanalyseerd worden om nieuwe inzichten te krijgen in de effecten van een bepaald medicijn op patiënten met diabetes. Maar wanneer er gezocht moet worden naar historische patronen in de bijwerkingen na chirurgie, is een andere thesaurus nodig, zelfs als dezelfde patiënten geanalyseerd worden. Het opzetten van de benodigde thesaurus voor een dergelijke tekstanalyse beperkt dus de analytische vrijheid en daardoor de mogelijke resultaten.

Snelheid geboden

Daarnaast kost een dergelijke 'traditionele' tekstanalyse vaak veel tijd. Tijd die er niet altijd is. Stel dat een patiënt naar de spoedeisende hulp wordt gebracht. Als doktoren snel moeten handelen, hebben ze meestal geen tijd om het volledige patiëntendossier te lezen. Wat ze nodig hebben, is een samenvatting van alle belangrijke aspecten van de patiënt: Heeft hij diabetes? Heeft hij gewoonlijk een hoge bloeddruk? Welke medicijnen gebruikt hij? Is hij hier eerder geweest? Het opzetten van een thesaurus voor de analyse van de beschikbare documenten gaat in zo'n geval te veel tijd kosten.

Grote hoeveelheden teksten snel exploreren

Er is dus behoefte aan een technologie waarmee de teksten snel geanalyseerd kunnen worden zonder dat het voorbereidende werk van een index en thesaurus nodig is en waarvan de analyse ongeleid kan plaatsvinden. Hiervoor is een speciale vorm van tekstanalyse beschikbaar: tekstexploratie.

Concepten ontdekken

InterSystems heeft een technologie ontwikkelend (iKnow) die teksten opbreekt in zinnen en deze zinnen vervolgens in concepten en relaties. Bij het ontleden van een zin wordt eerst gekeken naar de relaties binnen een zin. Zo kan de relatie tussen concepten in een zin gelegd worden met werkwoorden, maar ook andere zinsconstructies kunnen relaties aangeven.

Door het identificeren van de relaties in een zin is de kans groter dat de gewenste concepten ontdekt worden. In de zin "De patiënt gebruikte een bloeddrukverlagende middel" beschouwt iKnow de verleden tijd van het werkwoord "gebruiken" als een relatie die de concepten “patiënt” en “bloeddrukverlagend middel” scheidt. In iKnow wordt dit een concept-relatie-concept (CRC)-volgorde genoemd. Hierbij gooit iKnow automatisch alle onbelangrijke vulwoorden uit zinnen weg, zoals "de" en "een".

Relaties leggen

Ook andere zinsconstructies kunnen een relatie aangeven. In het zinsdeel "Behandelingen zoals fysiotherapie..." bestaat er een relatie tussen “behandelingen” en “fysiotherapie”. Een ander voorbeeld is "De pijn in de onderbuik". Hierin vertegenwoordigt het woord "in" een relatie tussen de concepten "pijn" en "onderbuik". iKnow is zo ontwikkeld dat het verschillende taalconstructies waarmee relaties worden aangeduid, herkent.

Context en frequenties

Dit proces, waarbij iKnow entiteiten identificeert, ontleedt zinnen in grafen waarin concepten door middel van relaties aan elkaar gekoppeld zijn. De grafen, contextmetadata en frequenties die iKnow op deze manier verzamelt, kunnen gebruikt worden voor uitgebreide analyses binnen een tekst en tussen verschillende tekstblokken.

Grote hoeveelheden teksten kunnen hierdoor zonder thesaurus of ontologie automatisch geanalyseerd worden op de belangrijkste concepten. Door gebruik te maken van deze speciale vorm van tekstanalyse is het bijvoorbeeld mogelijk snel de belangrijkste elementen uit een stapel patiëntendossiers te halen of samenvattingen te maken van grote hoeveelheden tekst.

Hoe kan de iKnow-technologie gebruikt worden?

De iKnow-technologie is geïntegreerd in  InterSystems Caché®, de meest gebruikte database voor medische applicaties. De resultaten van de iKnow-analyses kunnen ook gebruikt worden in  InterSystems DeepSee®: Business Intelligence software waarmee bedrijven informatie in “real-time” kunnen halen uit hun gestructureerde en ongestructureerde gegevens. De iKnow-technologie werkt momenteel al voor het Nederlands, Engels, Frans, Duits, Portugees en Spaans. Japans en Russisch zijn in ontwikkeling.

 

Beeldbron: AdobeStock © BillionPhotos.com 215707672
 

GERELATEERDE THEMA'S

Andere Berichten Die Je Misschien Leuk Vindt.

08 okt 2024
Ontwikkelingen zoals de komst van kunstmatige intelligentie, machine learning en data-tools hebben de potentie om de medische zorg voorgoed te transformeren.
01 okt 2024
Ontwikkelingen zoals de komst van kunstmatige intelligentie, machine learning en data-tools hebben de potentie om de medische zorg voorgoed te transformeren.
10 sep 2024
Operaties zijn een duur gebied in klinieken en hebben daarom een aanzienlijke invloed op de winstgevendheid. Het is dus geen verrassing dat ziekenhuizen op zoek zijn naar manieren om de efficiëntie van operatiekamers te verhogen en uiteindelijk ook de bezettingsgraad.
05 sep 2024
Gemiste medische afspraken zijn een wijdverbreid en kostbaar probleem voor zorgverleners. Gemiste afspraken hebben invloed op het interne tijdbeheer, optimale patiëntenzorg en vaak ook op het resultaat.
03 sep 2024
AI maakt een beter begrip van risico's mogelijk, een effectiever beheer van patiënten na ontslag en een aanzienlijke verlaging van de kosten.
03 jul 2024
In dit artikel presenteren we de nieuwe mogelijkheden voor onze TrakCare- en HealthShare-oplossingen, die de rol van AI als adviseur, assistent en facilitator illustreren.
Head of Global Healthcare Solutions, InterSystems
07 jun 2024
Maak kennis met InterSystems FHIR Server, een essentieel onderdeel voor moderne gegevensuitwisseling in de gezondheidszorg.
14 mei 2024
Door gegevens in real-time te vertalen en om te zetten naar FHIR-formaat, zorgt de server voor on-demand toegang tot legacy-gegevens zonder duplicatie en biedt het flexibiliteit bij de inzet van de gegevens.
07 mei 2024
Ontdek InterSystems IRIS for Health, meer specifiek InterSystems FHIR Server, een fundamenteel onderdeel van moderne gegevensuitwisseling in de gezondheidszorg
13 feb 2024
De FHIR Standaard verbetert het overzicht over patiëntgegevens en stroomlijnt informatiestromen, waardoor behandelingen en patiëntresultaten verbeteren.