VOGIN-IP-LEZING 2022       ANNE VAN DEN DOOL

Cynthia Liem:

‘Ik heb me vaak 
afgevraagd: had een
datawetenschapper 
kunnen voorkomen?’ 
de toeslagenaffaire 

Op 11 mei vindt de tiende VOGIN-IP-lezing plaats. Op het programma staan onder meer talks over linked open data, neural ranking methods en het archief van de toekomst. Als voorproefje in deze IP een interview met twee sprekers: Cynthia Liem over de digitale misstappen in de toeslagenaffaire, en Brecht Castel over de vraag hoe online onderzoek helpt in de strijd tegen desinformatie.

IP | vakblad voor informatieprofessionals | 03 / 2022

Vogin-IP-lezing 2022  |  Cynthia Liem

Cynthia Liem

Foto: Elodie Burillon

De interesse van Cynthia Liem in sturende algoritmes werd gewekt door haar achtergrond als pianist. Al vroeg in haar muzikale carrière merkte ze dat sommige stukken heel vaak worden opgevoerd, terwijl andere zelden van stal worden gehaald. ‘Ik dook graag in collecties met onbekende stukken en vroeg me af waarom het ene stuk onder musici eindeloze populariteit geniet terwijl het andere vaak op de plank blijft liggen. Liggen daar bepaalde eigenschappen aan ten grondslag? En zit daar misschien een systeem achter dat zelfversterkend werkt?’
Die vragen kun je op veel meer gebieden toepassen, leerde Liem in haar werk als informaticus en universitair hoofddocent aan de TU Delft. ‘Denk bijvoorbeeld aan sollicitatiegesprekken. Sommige bedrijven experimenteren nu met manieren om automatisch kandidaten te selecteren die geschikt zijn voor een openstaande functie. Hoe doe je dat zodanig dat je niet alleen de overduidelijk geschikte kandidaten naar boven haalt, maar ook de bijzondere types die echt een aanvulling kunnen vormen op je organisatie?’

PROBLEMATISCH FILTER
Vraagstukken als deze interesseren Liem bijzonder: hoe filteren we informatie op de juiste manier? Ze vertelde er al meermaals over in de media, met een variatie aan filterprocessen als voorbeeld. Het was voor dagblad Trouw aanleiding om haar te benaderen in het kader van de toeslagenaffaire die Nederland sinds eind 2017 in haar greep houdt. ‘Mij werd gevraagd te kijken naar de algoritmische kant van het toeslagenschandaal’, blikt Liem terug. ‘Men vroeg of ik de situatie kon uitleggen op een manier die ook begrijpelijk zou zijn voor mensen met minder technische kennis, en of ik een oordeel kon vellen over de wijze waarop was gehandeld. Dit vraagstuk paste goed bij mij: ook hier was sprake van een filtersysteem dat met de beste bedoelingen van de wereld was ingesteld, maar dat wel grote problemen veroorzaakte. Voor mij ook direct een goede casus om mee te illustreren hoe bewust we ons moeten zijn van de grote invloed die zulke fouten kunnen hebben.’

TAALVERWARRING
Liem dook samen met Trouw-journalisten in de duizend meest risicovolle profielen zoals die door die overheid waren vastgesteld. Mensen met een laag inkomen bleken sterk oververtegenwoordigd. ‘De vraag ontstond of het algoritme daar een rol in had gespeeld. Dat viel niet zo makkelijk te achterhalen: we moesten alles doen op basis van Wob-verzoeken (Wet openbaarheid van bestuur, red.). Dat waren veelal gescande teksten die niet goed waren geïndexeerd. Ook waren sommige delen afgelakt. Op basis daarvan moesten we proberen te herleiden wat er was gebeurd.’
Dat werd extra bemoeilijkt door de grote hoeveelheid tekst die niet altijd makkelijk te doorgronden was. ‘De teksten waren geschreven in nogal ambtelijke, wollige taal. Bovendien werden termen soms op een andere manier gebruikt dan ik gewend ben. Zo werd het woord indicator gebruikt voor wat technici een kenmerk zouden noemen. Dat kan voor cruciale verwarring zorgen: het woord indicator impliceert dat al is vastgesteld dat het kenmerk een rol speelt. Dergelijke verwarringen zorgden ervoor dat ik soms verdwaald raakte in de taal. Misschien ontstaat zo nog veel vaker verwarring, dacht ik toen.’

‘STAPELMODEL’ PAKT NIET GOED UIT
Samen met de journalisten probeerde Liem te achterhalen: wat ging er allemaal mis in het toeslagenschandaal? ‘We wilden bijvoorbeeld weten waar de keuze voor selectie op basis van lage inkomens vandaan kwam. Was dat bij voorbaat zo ingevoerd of was dat een kenmerk dat bovenkwam in audits? Dat werd uit de documenten die wij tot onze beschikking hadden niet duidelijk.’
Ook het model om vast te stellen welke mensen ten onrechte kinderopvangtoeslag ontvingen, was Liem onbekend. ‘Dit soort modellen wordt gebruikt door banken om te checken of iemand geld mag lenen, bijvoorbeeld in de vorm van een hypotheek. Daarin worden zaken opgeteld die samen bepalen hoe groot het risico is dat iemand die lening niet kan terugbetalen. De vraag is alleen of dat model wel zo goed toepasbaar is op toeslagen. Aan mensen met een laag inkomen geef je niet zo makkelijk een lening, maar hoe zit dat met toeslagen?’
Bovendien worden in dit model verschillende kenmerken bij elkaar opgeteld. ‘Als student onder de 25 jaar zonder vaste baan krijg je waarschijnlijk geen hoge hypotheek. Die kenmerken hangen natuurlijk sterk met elkaar samen. Dat zag je ook terug in de beoordeling die in de toeslagenaffaire was gedaan: alleenstaande moeders met meerdere kinderen en een grote kinderopvangbehoefte hadden een hoge risicoscore. Dat is heel goed te verklaren: als je alleen voor de kinderen moet zorgen, heb je minder tijd om geld te verdienen en heb je dus meer financiële ondersteuning nodig. Zo’n stapelmodel pakt dus niet altijd goed uit.’

ONTBREKENDE INFORMATIE
Liem had geen toegang tot de software die was gebruikt om tot een beoordeling van de toeslagenaanvragen te komen. ‘Uit de documenten die ik heb ingezien, spreekt een groot vertrouwen in die software, terwijl die door een externe partij is ontwikkeld. Op eenzelfde manier is informatie weggehouden bij de persoon die de dossiers uiteindelijk moest beoordelen, bij wijze van menselijke tussenkomst. Die persoon kende het systeem niet en wist niet waarom dossiers het stempel “hoog risico” hadden gekregen. Dat was gedaan om diegene zo objectief mogelijk te laten oordelen, maar de ontbrekende informatie zorgde juist voor ruis.’
Nog kwalijker was de sfeer die op de werkvloer bij de Belastingdienst heerste. ‘De controleur werd onder druk gezet om de gedane investering terug te verdienen. “We gaan boeven vangen”, was het sentiment: “We moeten het geld terugverdienen dat dit project ons heeft gekost, en als dat niet lukt, moeten we korten op jouw baan.” Men schoof verantwoordelijkheden op elkaar af, terwijl het in processen als deze juist zo belangrijk is om een compleet beeld van het traject te vormen. Anders kan het de verkeerde kant op gaan, zoals we hebben gezien.’

AANMOEDIGEN TOT KRITISCH NADENKEN
De ontdekkingen die zij deed, lieten Liem stilstaan bij de manier waarop zij haar eigen studenten wil opleiden. ‘Ik heb me vaak afgevraagd: had een datawetenschapper dit kunnen voorkomen? Had die de betrokken experts kunnen aanmoedigen om kritisch na te denken over de ingeslagen weg en wellicht zelfs een andere aanpak te kiezen? In schandalen als deze krijgt de techniek vaak de schuld, terwijl een systeem simpelweg aan de slag gaat met de data die je er als mens in stopt en de variabelen die je hebt ingesteld. We zien nu vaak dat technologie wordt ingezet om op menskracht te bezuinigen. Ik zou juist zeggen: zet die mensen op het voortraject waarin wordt bepaald welke opdracht en input je een systeem geeft.’
Volgens Liem moeten we de correlaties die in de loop van het proces zijn vastgesteld daarbij niet resoluut terzijde schuiven. ‘Als Nederlands niet je eerste taal is, heb je ongetwijfeld meer problemen met het invullen van je belastingaangifte. Als zo’n kenmerk als indicator naar boven komt, moet je daar als Belastingdienst intern mee aan de slag in plaats van iemand onterecht als fraudeur te bestempelen.’

BEWUST ZIJN VAN JE VOOROORDELEN
Een schandaal als de toeslagenaffaire maakt voor Liem duidelijk hoe belangrijk het is dat alle betrokkenen in het proces, van dataspecialist tot informatieprofessional, zich bewust zijn van de invloed van hun vooroordelen en keuzes. ‘Dit komt in allerlei sectoren voor: van de overheid tot het culturele veld. Laten we daarom vooral in discussie gaan over de doelen die we willen bereiken en hoe we daarover willen communiceren – met elkaar en met de buitenwereld.’ <

‘Uit de documenten die ik heb ingezien, spreekt een groot vertrouwen in de software, terwijl die door een externe partij is ontwikkeld’

De tiende editie van de VOGIN-IP-lezing vindt op 11 mei plaats in de Openbare Bibliotheek Amsterdam (OBA). Het programma biedt naast acht interessante lezingen ook elf workshops om uit te kiezen.
> Het volledige programmaoverzicht vind je hier.
> Inschrijven is mogelijk op de website.

‘De controleur werd onder druk gezet om de gedane investering terug te verdienen. “We gaan boeven vangen”, was het sentiment’

De VOGIN-IP-lezing is het gezamenlijke evenement van Stichting VOGIN en IP. De vorige editie vond plaats op 21 oktober vorig jaar.

‘In schandalen als deze krijgt de techniek vaak de schuld, terwijl een systeem aan de slag gaat met de data die je er als mens in stopt’

kunnen voorkomen?’ 

VOGIN-IP-LEZING 2022       ANNE VAN DEN DOOL

Cynthia Liem:

‘Ik heb me vaak 
afgevraagd: had een
datawetenschapper 
de toeslagenaffaire 

Op 11 mei vindt de tiende VOGIN-IP-lezing plaats. Op het programma staan onder meer talks over linked open data, neural ranking methods en het archief van de toekomst. Als voorproefje in deze IP een interview met twee sprekers: Cynthia Liem over de digitale misstappen in de toeslagenaffaire, en Brecht Castel over de vraag hoe online onderzoek helpt in de strijd tegen desinformatie.

IP | vakblad voor informatieprofessionals | 03 / 2022

Foto: Elodie Burillon

Cynthia Liem

De interesse van Cynthia Liem in sturende algoritmes werd gewekt door haar achtergrond als pianist. Al vroeg in haar muzikale carrière merkte ze dat sommige stukken heel vaak worden opgevoerd, terwijl andere zelden van stal worden gehaald. ‘Ik dook graag in collecties met onbekende stukken en vroeg me af waarom het ene stuk onder musici eindeloze populariteit geniet terwijl het andere vaak op de plank blijft liggen. Liggen daar bepaalde eigenschappen aan ten grondslag? En zit daar misschien een systeem achter dat zelfversterkend werkt?’
Die vragen kun je op veel meer gebieden toepassen, leerde Liem in haar werk als informaticus en universitair hoofddocent aan de TU Delft. ‘Denk bijvoorbeeld aan sollicitatiegesprekken. Sommige bedrijven experimenteren nu met manieren om automatisch kandidaten te selecteren die geschikt zijn voor een openstaande functie. Hoe doe je dat zodanig dat je niet alleen de overduidelijk geschikte kandidaten naar boven haalt, maar ook de bijzondere types die echt een aanvulling kunnen vormen op je organisatie?’

PROBLEMATISCH FILTER
Vraagstukken als deze interesseren Liem bijzonder: hoe filteren we informatie op de juiste manier? Ze vertelde er al meermaals over in de media, met een variatie aan filterprocessen als voorbeeld. Het was voor dagblad Trouw aanleiding om haar te benaderen in het kader van de toeslagenaffaire die Nederland sinds eind 2017 in haar greep houdt. ‘Mij werd gevraagd te kijken naar de algoritmische kant van het toeslagenschandaal’, blikt Liem terug. ‘Men vroeg of ik de situatie kon uitleggen op een manier die ook begrijpelijk zou zijn voor mensen met minder technische kennis, en of ik een oordeel kon vellen over de wijze waarop was gehandeld. Dit vraagstuk paste goed bij mij: ook hier was sprake van een filtersysteem dat met de beste bedoelingen van de wereld was ingesteld, maar dat wel grote problemen veroorzaakte. Voor mij ook direct een goede casus om mee te illustreren hoe bewust we ons moeten zijn van de grote invloed die zulke fouten kunnen hebben.’

TAALVERWARRING
Liem dook samen met Trouw-journalisten in de duizend meest risicovolle profielen zoals die door die overheid waren vastgesteld. Mensen met een laag inkomen bleken sterk oververtegenwoordigd. ‘De vraag ontstond of het algoritme daar een rol in had gespeeld. Dat viel niet zo makkelijk te achterhalen: we moesten alles doen op basis van Wob-verzoeken (Wet openbaarheid van bestuur, red.). Dat waren veelal gescande teksten die niet goed waren geïndexeerd. Ook waren sommige delen afgelakt. Op basis daarvan moesten we proberen te herleiden wat er was gebeurd.’
Dat werd extra bemoeilijkt door de grote hoeveelheid tekst die niet altijd makkelijk te doorgronden was. ‘De teksten waren geschreven in nogal ambtelijke, wollige taal. Bovendien werden termen soms op een andere manier gebruikt dan ik gewend ben. Zo werd het woord indicator gebruikt voor wat technici een kenmerk zouden noemen. Dat kan voor cruciale verwarring zorgen: het woord indicator impliceert dat al is vastgesteld dat het kenmerk een rol speelt. Dergelijke verwarringen zorgden ervoor dat ik soms verdwaald raakte in de taal. Misschien ontstaat zo nog veel vaker verwarring, dacht ik toen.’

‘STAPELMODEL’ PAKT NIET GOED UIT
Samen met de journalisten probeerde Liem te achterhalen: wat ging er allemaal mis in het toeslagenschandaal? ‘We wilden bijvoorbeeld weten waar de keuze voor selectie op basis van lage inkomens vandaan kwam. Was dat bij voorbaat zo ingevoerd of was dat een kenmerk dat bovenkwam in audits? Dat werd uit de documenten die wij tot onze beschikking hadden niet duidelijk.’
Ook het model om vast te stellen welke mensen ten onrechte kinderopvangtoeslag ontvingen, was Liem onbekend. ‘Dit soort modellen wordt gebruikt door banken om te checken of iemand geld mag lenen, bijvoorbeeld in de vorm van een hypotheek. Daarin worden zaken opgeteld die samen bepalen hoe groot het risico is dat iemand die lening niet kan terugbetalen. De vraag is alleen of dat model wel zo goed toepasbaar is op toeslagen. Aan mensen met een laag inkomen geef je niet zo makkelijk een lening, maar hoe zit dat met toeslagen?’
Bovendien worden in dit model verschillende kenmerken bij elkaar opgeteld. ‘Als student onder de 25 jaar zonder vaste baan krijg je waarschijnlijk geen hoge hypotheek. Die kenmerken hangen natuurlijk sterk met elkaar samen. Dat zag je ook terug in de beoordeling die in de toeslagenaffaire was gedaan: alleenstaande moeders met meerdere kinderen en een grote kinderopvangbehoefte hadden een hoge risicoscore. Dat is heel goed te verklaren: als je alleen voor de kinderen moet zorgen, heb je minder tijd om geld te verdienen en heb je dus meer financiële ondersteuning nodig. Zo’n stapelmodel pakt dus niet altijd goed uit.’

ONTBREKENDE INFORMATIE
Liem had geen toegang tot de software die was gebruikt om tot een beoordeling van de toeslagenaanvragen te komen. ‘Uit de documenten die ik heb ingezien, spreekt een groot vertrouwen in die software, terwijl die door een externe partij is ontwikkeld. Op eenzelfde manier is informatie weggehouden bij de persoon die de dossiers uiteindelijk moest beoordelen, bij wijze van menselijke tussenkomst. Die persoon kende het systeem niet en wist niet waarom dossiers het stempel “hoog risico” hadden gekregen. Dat was gedaan om diegene zo objectief mogelijk te laten oordelen, maar de ontbrekende informatie zorgde juist voor ruis.’
Nog kwalijker was de sfeer die op de werkvloer bij de Belastingdienst heerste. ‘De controleur werd onder druk gezet om de gedane investering terug te verdienen. “We gaan boeven vangen”, was het sentiment: “We moeten het geld terugverdienen dat dit project ons heeft gekost, en als dat niet lukt, moeten we korten op jouw baan.” Men schoof verantwoordelijkheden op elkaar af, terwijl het in processen als deze juist zo belangrijk is om een compleet beeld van het traject te vormen. Anders kan het de verkeerde kant op gaan, zoals we hebben gezien.’

AANMOEDIGEN TOT KRITISCH NADENKEN
De ontdekkingen die zij deed, lieten Liem stilstaan bij de manier waarop zij haar eigen studenten wil opleiden. ‘Ik heb me vaak afgevraagd: had een datawetenschapper dit kunnen voorkomen? Had die de betrokken experts kunnen aanmoedigen om kritisch na te denken over de ingeslagen weg en wellicht zelfs een andere aanpak te kiezen? In schandalen als deze krijgt de techniek vaak de schuld, terwijl een systeem simpelweg aan de slag gaat met de data die je er als mens in stopt en de variabelen die je hebt ingesteld. We zien nu vaak dat technologie wordt ingezet om op menskracht te bezuinigen. Ik zou juist zeggen: zet die mensen op het voortraject waarin wordt bepaald welke opdracht en input je een systeem geeft.’
Volgens Liem moeten we de correlaties die in de loop van het proces zijn vastgesteld daarbij niet resoluut terzijde schuiven. ‘Als Nederlands niet je eerste taal is, heb je ongetwijfeld meer problemen met het invullen van je belastingaangifte. Als zo’n kenmerk als indicator naar boven komt, moet je daar als Belastingdienst intern mee aan de slag in plaats van iemand onterecht als fraudeur te bestempelen.’

BEWUST ZIJN VAN JE VOOROORDELEN
Een schandaal als de toeslagenaffaire maakt voor Liem duidelijk hoe belangrijk het is dat alle betrokkenen in het proces, van dataspecialist tot informatieprofessional, zich bewust zijn van de invloed van hun vooroordelen en keuzes. ‘Dit komt in allerlei sectoren voor: van de overheid tot het culturele veld. Laten we daarom vooral in discussie gaan over de doelen die we willen bereiken en hoe we daarover willen communiceren – met elkaar en met de buitenwereld.’ <

De tiende editie van de VOGIN-IP-lezing vindt op 11 mei plaats in de Openbare Bibliotheek Amsterdam (OBA). Het programma biedt naast acht interessante lezingen ook elf workshops om uit te kiezen.
> Het volledige programmaoverzicht vind je hier.
> Inschrijven is mogelijk op de website.

De VOGIN-IP-lezing is het gezamenlijke evenement van Stichting VOGIN en IP. De vorige editie vond plaats op 21 oktober vorig jaar.

Vogin-IP-lezing 2022  |  Cynthia Liem