Is optimisme over data analytics wel terecht?

Vorige maand kreeg mijn dochter haar hbo-diploma. Alle geslaagden werden tijdens de uitreikingsceremonie door hun docenten toegesproken. Verheugd was ik met het grote aantal studenten dat in hun eindstage gegevens had geanalyseerd met data mining tools. Verontrust ben ik echter over een uitspraak van een van de docenten. Hij zei dat hij statistiek altijd vreselijk moeilijk vond. Hij begreep het eigenlijk niet zo goed. “Gelukkig was er nu data mining, en dat was hoger dan statistiek!”

Het is geen goed teken dat docenten die studenten begeleiden met data-analyses statistiek zo slecht begrijpen. Kunnen we wel op een goede manier data analyseren zonder kennis van statistiek? In de samenleving heersen grote verwachtingen met betrekking tot big data in de gezondheidszorg. Deze moet de zorg beter en goedkoper maken door medicatie en screening beter op het individu te laten aansluiten (precision medicine). Data analytics tools zoals data mining en machine learning worden vaak als veelbelovende methoden genoemd om de informatie uit de big data te halen. Is dit enthousiasme dan wel terecht?

Oud vak

Statistiek is een oud vak. Door middel van analyse van gegevens van een steekproef proberen statistici iets te zeggen over de onderliggende populatie waaruit de steekproef getrokken was. Een bekend voorbeeld is de randomized clinical trial. Zo’n trial wordt bijvoorbeeld uitgevoerd om na te gaan of een nieuw medicijn een bepaalde ziekte geneest. In een aantal ziekenhuizen worden patiënten met de ziekte gerandomiseerd met betrekking tot dit nieuwe medicijn: een gedeelte krijgt het medicijn en de rest krijgt de standaardbehandeling. Door de gegevens van deze patiënten te analyseren, kunnen we vaststellen of er statistisch bewijs is dat het medicijn voldoende werkt. Het effect van het medicijn op genezing kan geschat worden. Onder bepaalde aannamen zegt deze schatting iets over de gehele patiëntenpopulatie. De onzekerheid rond de schatting kan worden uitgerekend. Ook kunnen we een groter model met meerdere risicofactoren (leeftijd, wel of niet roken en dergelijke) construeren dat de kans berekent op genezing van de patiënt. Tenslotte kunnen we iets zeggen over hoe goed dit model bij de data past.

Illustraties Pollie Hogenboom

Machine learning en data mining zijn technieken die hun oorsprong in de artificiële intelligentie hebben. Het gaat hier onder andere om methoden die leren van de data, om zo een uitkomst zo goed mogelijk te voorspellen. Deze methoden worden ook gebruikt om bepaalde patronen in de dataset te vinden en deze te visualiseren. In dit vakgebied is veel aandacht voor efficiënte algoritmen waardoor deze methoden grote datasets kunnen analyseren. Consumentengegevens zijn hiermee met succes geanalyseerd en bedrijven kunnen nu gericht producten onder de aandacht brengen bij consumenten. Bijvoorbeeld: als je online een boek koopt, krijg je simultaan een aantal andere boeken te zien die voor jou ook interessant zijn. Zelfs als je daarna de krant online gaat lezen, krijg je nogmaals de titels van deze boeken te zien.

Black box

Meestal werken deze methoden goed, maar soms gaat het fout. De methoden zijn namelijk een black box. Je stopt er wat in en er komt wat uit, maar je weet niet wat er tussendoor gebeurt. Daarom is het ook moeilijk om inzicht te krijgen in de factoren die belangrijk zijn bij een voorspelling. Daarmee is het dus ook lastig om de kans dat het algoritme een fout maakt uit te rekenen. Dit is in tegenstelling tot statistische modellen, waarbij wél de relatie tussen factoren en uitkomst bekend is. Biologen en medici kunnen dus niet deze black box-methoden gebruiken wanneer ze de rol van de onderliggende factoren op de uitkomst willen weten. Daarvoor heb je statistische modellen nodig.

Big data in de gezondheidszorg bevatten klinische gegevens van personen, gecombineerd met allerlei omics- en imaging-bestanden. Het is een combinatie van huisartsenbestanden, bestanden van ziekenhuizen, van de psychiatrische zorg en van apothekers, maar ook van gegevens van clinical trials, van epidemiologische studies en eventueel van zorgverzekeraars. In tegenstelling tot consumentenbestanden zijn dit heterogene bestanden: ze verschillen in kwaliteit, schaal en de soort meetfouten en dergelijke. Vaak representeren deze bestanden verschillende bevolkingsgroepen. De patiënten die meedoen in een clinical trial of in een epidemiologische studie zijn bijvoorbeeld gezonder dan de gehele populatie. Statistiek is het vakgebied wat juist voor dit soort uitdagingen methoden ontwikkelt. Echter, de combinatie van alle problemen en de grootte van de datasets zijn een grote uitdaging voor de huidige statistische methoden. Data mining en machine learning kunnen vaak wel met dit soort grote datasets overweg, alleen kunnen ze niet met heterogeniteit omgaan. Op dit moment zijn er nog geen methoden die big data in de gezondheidszorg kunnen analyseren.

Stappen maken

Met betrekking tot precision medicine zijn er wel stappen gemaakt, maar dit is toch nog niet te danken aan big data. We weten nu dat patiënten met specifieke mutaties niet op een behandeling reageren. Dit is een belangrijke stap, maar ook nog vrij eenvoudig: het gaat om slechts één grote dataset. Met data mining kunnen we nu in principe patiënten vinden met dezelfde profielen in grote datasets. Een arts kan dan het profiel van een nieuwe patiënt vergelijken met die van andere patiënten en heeft daarbij ook een overzicht over mogelijke behandelmethoden en het succes van deze behandelingen. Dit is echter een privacygevoelige methode, aangezien de arts gegevens over patiënten van andere artsen kan inzien.

Daarnaast is de beslissing welke behandeling te gebruiken voor de nieuwe patiënt ad hoc. Deze tool lijkt vooral nuttig te zijn voor de behandeling van hele zeldzame ziekten, waarover weinig of niets bekend is en waarvoor het sowieso moeilijk is een model te maken. Voor vaker voorkomende ziekten is het wachten op methoden die achter de schermen de kans uitrekenen en aangeven waarom deze kans juist hoog of laag is bij een specifieke nieuwe patiënt.

Twee uitdagingen

Op het gebied van de methodologie zijn er minstens twee grote uitdagingen die overwonnen moeten worden om met big data de gezondsheidzorg beter en goedkoper te maken.

Jeanine Houwing-Duistermaat (fotografie Angela Verdam)

Ten eerste moet er veel meer aandacht worden besteed aan het opschonen van de datasets. Dit geldt voor elektronische patiëntendossiers en voor omics-datasets. Onlangs moest een aantal onderzoeksartikelen uit gerenommeerde vakliteratuur worden teruggetrokken door grote fouten in data cleaning. Het is aannemelijk dat het gebrek aan replicatie van bevindingen gedeeltelijk veroorzaakt wordt door slechte data handling. Als het opschonen van de datasets niet gestandaardiseerd wordt, is het gebruik van deze data in de zorg nog heel ver weg. In Nederland houdt DTL Data zich bezig met alle aspecten van data. Statistici spelen hier echter amper een rol bij. Dit is zeer bedenkelijk, aangezien statistiek zich bezighoudt met het modelleren van meetfouten en heterogeniteit tussen en binnen datasets.

De tweede grote uitdaging is het bouwen van modellen die gebruik maken van alle data en ook nog inzicht geven in de relatie tussen de factoren en de uitkomst (bijvoorbeeld genezing). Naar mijn mening is hierbij een hybride aanpak van statistiek en data analytics noodzakelijk.

Om de volgende stap te kunnen maken, moeten de experts van de twee disciplines – biostatistiek en data analytics – elkaars terminologie leren kennen en meer met elkaar samenwerken. In Nederland gebeurt dit amper wat onder andere een gevolg is van het feit dat statistiek in Nederland niet als wetenschappelijk onderzoeksgebied wordt gezien.

Mijn ervaring is keer op keer dat men in de life sciences denkt dat statistiek gelijk is aan het analyseren van data. Biostatistiek is een wetenschappelijke discipline die nieuwe methoden voor data-analyse ontwikkelt. Dat men denkt dat statistiek gelijk is aan analyse van data baart mij zorgen. Maar dat zelfs een wetenschappelijk orgaan als NWO hier geen aandacht aan besteedt, is verontrustend. Nieuwe statistische methoden zijn hard nodig om big data op een goede manier te analyseren en toepassingen in precision medicine mogelijk te maken.

Jeanine Houwing-Duistermaat is professor in Data Analytics and Statistics bij de Universiteit van Leeds en is coördinator van het Europese consortium MIMOmics (nr 305280)

email

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *