Wordt zorgsector overspoeld of verrijkt door Big Data, Fast Data en small data?

Van Big Data verwachten de beleidsmakers in de zorg wonderen. Inmiddels neemt de omvang van de hoeveelheid data sneller toe dan de technische expertise om deze te exploreren. In de zorg lijkt bovendien het data volume niet altijd zaligmakend. Patiënten laten zich door de variëteiten in ziekteverschijnselen en complicaties lastiger over één kam scheren dan bijvoorbeeld consumenten in hun koopgedrag. Bij het speuren naar ’small data’ in de uitdijende databerg, maakt de zorgprofessional kennis met het fenomeen Fast Data, gegenereerd via een veelvoud van op internet aangesloten apparaten.

Al geruime tijd drukt de computerindustrie de capaciteit van data opslag uit in terabytes (10 met 12 nullen). IT-gigant Cisco voorspelt dat we dit jaar uitkomen op 1,3 zettabytes aan data die zich over het internet wereldwijd verspreiden. Een zettabyte is een 10 met 21 nullen erachter. Binnen afzienbare tijd groeien we naar yottabytes, oftewel een 10 met 24 nullen erachter. Die hoeveelheid data moeten we wel ergens kunnen opslaan en binnen een acceptabele tijd analyseren. Weliswaar komen er dagelijks nieuwe tools bij waarmee dat zou moeten kunnen, maar het vergt tijd om die tools te evalueren en te bekijken of ze in de praktijk toepasbaar zijn. Bovendien gaat het datawetenschappers in de zorg veelal meer om het speuren naar small data, oftewel de gemeenschappelijke kenmerken van patiëntgroepen met verder volstrekt individueel afwijkende typeringen.

En onder invloed van alweer een nieuwe hype, het Internet of Things (IoT) openbaart zich wederom een ander fenomeen: Fast Data. Rick van der Lans, al jaren een internationaal vermaard spreker op het gebied van database- en data analyse technologie, citeert een woordvoerder van Teradata, leverancier van BI-oplossingen: “de sensoren in een nieuwe straalmotor van een Boeing vliegtuig genereren per 30 minuten 10 terabytes aan data.” Volgens Van der Lans leggen veel ondernemingen dat nu bedrijfsbreed nog niet eens per jaar vast. Door het explosief groeiende aantal apparaten rechtstreeks aangesloten op het internet komt er dus meer informatie bij, terwijl vanwege het ’mission critical’ karakter ’realtime’ operationele analyse wenselijk is. Met de belofte van eHealth applicaties met meting en bewaking van patiënten via ’wearables’, ’smart patches’ en zelfmeting via apps op smartphones, zien ook de IT-specialisten in de zorgsector zich geplaatst voor een vloedgolf van Fast Data die direct om analyse vragen. De kwaliteit van de operationele besluitvorming van behandelaars is ermee gediend.

Kopieerprocessen van data verloopt te traag

De bestaande data silo’s in het applicatielandschap van zorginstellingen waren al niet echt toegesneden op het adequaat herbergen van Big Data, laat staan dat ze zich lenen voor het opvangen van Fast Data. ”Voor Big Data moeten IT-systemen een grotere werkbelasting aankunnen om grote volumes data op te slaan en te analyseren”, aldus Van der Lans. ”Dat impliceert snelle geheugens met snelle doorlooptijden van data (latency). De systeemarchitectuur is meer toegesneden op analytische toepassingen dan op transactieverwerking. Bij Fast Data is ’high data latency’ niet relevant vanwege de vele extra stappen voor nieuwe analysevormen die ’on the fly’ tijdens het ’streaming’ proces worden uitgevoerd. Maar snelheid tijdens het totale verwerkingstraject speelt natuurlijk wel een rol, waardoor de gangbare, veelal batch georiënteerde processen van het kopiëren van data vanuit de transactieverwerking naar data warehouses te traag verlopen. Analyse moet direct op de operationele data kunnen plaatsvinden.”

Van der Lans signaleert de opkomst van een geheel nieuwe generatie zogeheten NONSQL databaseproducten, gemaakt voor snelheid en schaalbaarheid. Bekende namen zijn Hadoop, MongoDB, Redis, Cassandra, Hazelcast, LevelDB, CoucheDB, Riak en Google BigTable. In de categorie gereedschappen voor het doorvoeren van data (streaming) treffen we namen aan als Apache Kafka (LinkedIn), Confluent, Apache Storm (Twitter) en RabitMQ. Die snelle datastroom laat zich vervolgens analyseren via SQLStream, StreamBase en Cisco Parstream en CSA. Voor het monitoren en bijsturen van de stroom lenen zich producten als Apache NFI en HartonWorks DataFlow (een Apache NFI ++ variant gemaakt voor de NSA). Hoewel al deze betrekkelijk nieuwe technologie is gericht op de snelle verwerking van enorme hoeveelheden data, zijn ze geënt op één specifieke toepassing. Voorts bespeurt Van der Lans dat veel van de innoverende softwareproducten zich alleen via ambachtelijke programmeeromgevingen (bijvoorbeeld Java) laten integreren met bestaande systemen, waardoor op den duur een onderhoudsprobleem dreigt.

Big Data in de zorgsector bestaat voor een deel uit gestructureerde data, voornamelijk opgeslagen in EPD’s. Sensordata is in principe gestructureerd, maar kent geen metadata voor het versnellen van het zoekproces. Ook bestaat er nog geen echte industrie standaard voor data uitwisseling protocollen. In de praktijk komen nu MQTT, HiveMQ, Active MQ, JMS, Paho en Java veelvuldig voor. Een nog veel groter deel van de ongestructureerde data in de zorg bestaat uit vrije tekst of beeldmateriaal. Ontslagbrieven; diagnoseverslagen; verpleegkundige logboeken: lappen tekst zijn handmatig ingetikt door artsen en verpleegkundigen. Ze zijn niet gecodeerd, dus vinden we de content niet terug in DBC’s of in de EPD’s. Vast staat dat er veel informatie in zit die bij het maken van analyses en prognoses van grote waarde kunnen zijn.

Big Data tijdens HiMSS eHealth

Tijdens de afgelopen HiMSS eHealth bijeenkomst in Amsterdam was er slechts één sessie gewijd aan het thema Big Data. In een meer dan goed gevulde zaal van de Beurs van Berlage passeerden drie presentaties de revue met als gespreksleider Robert Verhei, programmaleider bij het Nederlandse instituut voor onderzoek van de gezondheidszorg (NIVEL). De eerste spreker, Jeremy Theal, arts en tevens Chief Medical Information Officer van North York General ziekenhuis in het Canadese Toronto, deed in een rap tempo verslag van een omvangrijk eCare project met een tweeledig doel: het verbeteren van de kwaliteit van de zorgverlening en de veiligheid van de patiënten; invoeren van systemen voor betere besluitvorming zowel op klinisch niveau als in de bedrijfsvoering. Het implementatietraject omvatte een geavanceerde, alle zorgdisciplines omvattende EPD. Vanaf de aanvang stond de integratie van alle subsystemen in het ziekenhuis met 3 locaties centraal, maar ook met systemen van andere zorgverleners in de regio en met die van de betrokken overheidsinstanties.

Door de grootschalige opzet en de sterke betrokkenheid van de zorgprofessionals kreeg het project al direct een Big Data karakter. Theal’s presentatie vermeldde als belangrijkste conclusie dat 76% van de gerealiseerde besparingen in het ziekenhuis hun oorsprong vinden in betere klinische besluitvorming. Ze zijn dus niet het gevolg van efficiency verbeteringen door automatisering. Ronduit indrukwekkend zijn de in 4 jaar tijd gerealiseerde verbeteringen bij het voorschrijven van bijvoorbeeld medicaties of het aanvragen van diagnose onderzoeken bij laboratoria en radiologie. De kosten (Capex + Opex) voor het eCare project, uitgesmeerd over 8 jaar bedragen ruim 24 miljoen dollar. Volgens Jeremy Theal een schijntje nu dokters door betere beslissingen in staat zijn om jaarlijks 31 levens van patiënten met longontsteking en COPD verschijnselen te redden.

Het maken van een kwaliteitslag door het analyseren van de enorme hoeveelheid voorhanden klinische data stond ook centraal bij het IT-project, uitgevoerd bij Humanitas Research Hospital in Milaan. Elena Sini is daar CIO. Zij wist haar gehoor te boeien met een betoog over een meerjaren project, gericht op het registreren van de prestaties van de 2.300 behandelaars van het ziekenhuis, dat jaarlijks bijna 2,5 miljoen patiënten behandelt via opnames of via de poliklinieken. De zorginstelling beschikt over 4 kenniscentra die willen uitblinken op het gebied van kankerbehandelingen, bestrijding van hart- en vaatziekten, orthopedische ingrepen en behandeling van neurologische aandoeningen.

Door invoering van een overkoepelend EPD kon het ziekenhuis de silo georiënteerde data opslag per afdeling vervangen door een patiënt gerichte IT-architectuur. Alle content die te maken had met patiënten kwam terecht in één klinisch data platform. De informatie daaruit, afgezet tegen prestatie indicatoren (KPI’s), leveren een prestatie overzicht voor de individuele zorgprofessionals, voor de afzonderlijke medische afdelingen en voor de verschillende behandeltrajecten. In de Milanese zorginstelling zijn algoritmen ontwikkeld om met behulp van de scorecard resultaten de operationele processen te optimaliseren. Daardoor zijn bijvoorbeeld vertragende factoren bij de spoedhulp weg te nemen en is sneller te reageren op een plotseling verminderende gezondheidstoestand van patiënten. Door een optimaal gebruik van medische instrumenten en andere voorzieningen zijn tevens de kosten verminderd. Ook voor het voorkomen van sepsis zijn algoritmen ontwikkeld, waardoor de kans op bloedvergiftiging in het ziekenhuis bij een groep risicovolle patiënten zich voortijdig in kaart laat brengen. Voor het analyseren van ongestructureerde data en dan vooral de vrije tekst in de verslagen van artsen, zoeken Elina Sini en haar medewerkers nog naar de juiste oplossing.

Ze werd op haar wenken bediend in de presentatie van de laatste spreker, Dirk Van Hyfte, adviseur medische informatica bij InterSystems. Dirk is geestelijk vader van het softwareproduct iKnow, waarmee woorden of zinsdelen met een voorspellende waarde zijn te halen uit vrije tekst, zoals in de verslagen van artsen. Het product is in gebruik bij een ziekenhuis aan de Amerikaanse Westkust, waar men zich eveneens boog over het ontstaan van sepsis bij patiënten tijdens de opname. Terwijl de informatie in het EPD slechts sporadisch voorzag in duidelijke hints over sepsis risico’s, gaf de analyse van iKnow op de vrije tekst van de klinische notities juist heel veel aanwijzingen.

iKnow werkt volgens een bottom-up benadering die de tekst eerst in zinnen opdeelt en van daaruit betekenisvolle woorden of woordgroepen herkent en de relatie tussen deze woordgroepen. In traditionele vormen van tekstanalyse wordt uitgegaan van vooraf opgestelde woordenboeken of ontologiën. Het zoekproces is louter kwantitatief en gaat voorbij aan het feit dat bijvoorbeeld in het medische domein woorden een geheel andere betekenis kunnen hebben in een andere context. Van Hyfte is zelf psychiater en praat dan ook graag over de geslaagde proef bij de Nederlandse GGZ instelling Parnassia, waar iKnow is gebruikt om uit de tekstverslagen van verpleegkundigen en psychiaters vast te stellen of patiënten op korte termijn in een fase komen die isolatie noodzakelijk maakt. Tijdig ingrijpen en het aanpassen van de therapeutische behandeling voorkomt dat. Inmiddels wordt de InterSystems software bij diverse Nederlands ziekenhuizen operationeel gebruikt in diensten van de Praktijk Index uit Bilthoven.

Multimodel dataplatform

‘Database Guru’ Rick van der Lans is zeer gecharmeerd van de methodologie achter iKnow. Hij schreef er in 2013 een ’whitepaper’ over onder de titel ‘Extending Business Intelligence with Text Exploration Technology’. Volgens Van der Lans laat deze software voor analyse van ongestructureerde data zich uitstekend combineren met rapportage tools voor gestructureerde gegevens, waaronder DeepSee, Intersystems eigen product voor ’realtime business intelligence’ direct op operationele data. In die sfeer levert de firma ook de multimodel dataplatform Caché. Dat biedt ruimte aan bijna alle vormen van data van bijvoorbeeld het in de internetwereld populaire formaat XML en JSON. Maar ook het traditionele SQL wordt ondersteund, evenals foto’s, video, audio, X-rays, clickstream en smartmeter data, grafische beelden, Doppler radarbeelden en sensorsignalen. Caché is het Franse woord voor verscholen. We vinden het product dan ook veelvuldig terug als ’embedded’ database in diverse zorg applicaties, waaronder Epic en Labosys van Philips.

Frans van der Geest is journalist

email

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *