Statistiek zorgt voor grip op data en modellen

Voordat een algoritme op data wordt losgelaten, wil je zeker weten dat de data geschikt zijn voor de vraag én dat de juiste vraag wordt gesteld. Op die uitdaging richt Laurence Frank zich van Methoden & Statistiek. Zij coördineert het onderwijs voor professionals in data science & AI. Samen met Rebecca Kuiper, die de programmeercursussen in de Utrechtse Summer School coördineert, deelt zij haar inzichten over de rol van statistiek bij de ontwikkeling van datasciencemodellen en de uitdagingen daarbij.

Kunstmatige intelligentie draait om data en geavanceerde, vaak zelflerende algoritmes. “Een geavanceerd algoritme kan complexe patronen herkennen, maar zonder de juiste statistische methoden loop je het risico in de explorerende fase te blijven hangen en verkeerde conclusies te trekken”, vertelt Laurence Frank. “Statistiek helpt bepalen of de data representatief is voor de doelgroep, of er data ontbreekt en of bias een rol speelt. Het biedt een bewustwordingsproces dat essentieel is om valide antwoorden te krijgen.”

Grip krijgen met CRISP-DM

“Vaak denken mensen dat meer data beter is, maar dat is een misvatting. Zelfs bij big data kunnen bepaalde groepen ontbreken. Oudere mensen zijn bijvoorbeeld vaak minder online vertegenwoordigd. Daar moet je je bewust van zijn en checks op doen”, vertelt Laurence Frank. Om die valkuilen te vermijden maakt zij in de cursussen gebruik van de CRISP-DM-methode, een stapsgewijze aanpak voor datascienceprojecten. “Die methode is niet perfect, maar zet wel goed aan tot nadenken. Als je deze methode gebruikt weet je in ieder geval zeker dat alle belangrijke vragen aan bod zijn gekomen.”

Rebecca Kuiper vult aan: “Het helpt je gestructureerd te werken en op het juiste moment de juiste checks uit te voeren. Het voorkomt dat je zomaar verbanden zoekt zonder een heldere onderzoeksvraag te hebben. Zo voorkom je toevallige ontdekkingen die bij herhaling niet standhouden.”

Cyclisch processen

Data science en AI-ontwikkeling zijn cyclische processen. Elke analyse roept nieuwe vragen op. Je moet steeds opnieuw de cyclus doorlopen: data verzamelen, controleren (ook ethische checks), je onderzoeksvraag aanscherpen. Dit zorgt ervoor dat je grip krijgt en weet waar je mee bezig bent. Heb je een analyse gedaan en krijg je resultaten die je niet had verwacht? Dan roept dat weer nieuwe vragen op. Je gaat opnieuw de cyclus in: weer checks, weer een verfijnde onderzoeksvraag of een update daarvan. Door de systematiek te volgen, kun je het bedrijfsmatig aanpakken en plannen. Je krijgt op tijd signalen als het niet goed gaat.

Cursussen

De UU biedt de cursus Introductie Data Science processen, analyse en ethiek voor data scientists, managers en privacy/compliance officers. Soms zitten zij ook samen in een classroom. “Daardoor ontstaat er onderling begrip. De data scientist leert de methodische aanpak van CRISP-DM en de manager leert waar de data scientist mee bezig is. De methode maakt duidelijk dat AI een cyclisch proces is en dat voortdurende verfijning van het proces noodzakelijk is.”, vertelt Laurence Frank. De programmeercursussen van de Utrechtse Summer School vullen dit aanbod aan. Rebecca Kuiper: “Er zijn cursussen voor allerlei programmeertalen en statistische modellen. Onze wetenschappers doen hier onderzoek naar en kunnen daarom meer expertise overdragen. In de cursussen werken deelnemers bijna altijd met hun eigen data, zodat ze het geleerde direct kunnen toepassen.”

‘Vergelijk het met vaccins’

Waar staat het gebruik van statistische methoden voor AI over vijf jaar? Laurence Frank verwacht dat de behoefte niet wezenlijk zal veranderen. “We vinden het dan nog steeds belangrijk dat data van goede kwaliteit is, dat er geen bias in de modellen zit en dat we valide uitspraken doen. Ik verwacht dat het belang hiervan alleen maar gaat toenemen. Ik hoop dat we steeds systematischer gaan werken. Vergelijk het bijvoorbeeld met vaccins. Daar zijn de stappen naar goedkeuring zorgvuldig bepaald en wordt alles vastgelegd. Voor AI ontbreekt zo’n aanpak in de praktijk, terwijl de gevolgen groot kunnen zijn als het mis gaat. Ik hoop dat we net als bij vaccins uiteindelijk een methodiek ontwikkelen waarmee AI pas na zorgvuldige ontwikkel- en testfasen op mensen wordt losgelaten. Dit besef leeft sterk in Nederland en Europa, maar die AI-ontwikkeling is zó snel gegaan.”

Methoden en Statistiek maakt deel uit van het departement Maatschappijwetenschappen van de faculteit Sociale Wetenschappen. Deze wetenschappers hebben de kennis om data te gebruiken om onderzoeksvragen te beantwoorden die de wetenschap en de maatschappij vooruithelpen.

De Utrechtse Summer School is een samenwerking van de Universiteit Utrecht, de Hogeschool Utrecht, de HKU en de Universiteit voor Humanistiek. De Utrechtse Summer School biedt zo’n 160 cursussen aan in de zomer én in de winter, bestemd voor studenten en professionals. Twintig daarvan gaan over methoden & statistiek.