ALGORITMISCHE ZOEKSYSTEMEN       FEMKE RENIERS

Omgaan met algoritmes in zoeksystemen

Bye bye bias

Hoe kan een zoekopdracht naar de stripheld Batman ook artikelen opleveren over de codeertaal Python, angst voor de tandarts bij kinderen en inheemse soevereiniteit? We zijn steeds meer afhankelijk van online zoeksystemen om uit de groeiende hoeveelheid informatie te filteren waarin we echt geïnteresseerd zijn, maar deze systemen kunnen fouten maken, vooroordelen hebben en onduidelijk zijn. Waarom gebeurt dat en wat kunnen we eraan doen?

OMGAAN MET ALGORITMES

‘Het is belangrijk om expres die bronnen te belichten die vaak minder goed door algoritmes worden gerepresenteerd’

‘Ik stel een aantal stappen voor om de onwetendheid over algoritmische zoeksystemen bij onze klanten aan te pakken’

‘De classificatie van bronnen in onderwerpen kan duidelijk misgaan en voor niet-relevante resultaten zorgen’

‘Door de keuze om “word matching” zo zwaar te laten wegen in het algoritme, ontstaat een bepaalde subjectiviteit’

‘Google heeft in plaats van het algoritme te verbeteren “gorilla” als label uit het systeem gehaald’

‘Het bibliotheekzoeksysteem dat door zijn universiteit wordt gebruikt, levert resultaten die niet relevant zijn voor de zoekvraag’

Voor velen is het allang bekend dat de meeste zoeksystemen gebruikmaken van algoritmes. Een algoritme wordt in een artikel van NPO Kennis omschreven als ‘een eindige reeks instructies met een vaststaande volgorde, die de oplossing van een bepaald probleem beschrijft’. Dit is natuurlijk een erg simpele omschrijving van wat vaak heel complexe systemen zijn. In de context van een zoeksysteem kan een algoritme worden gezien als een formule met een zoekvraag als input en een lijst van relevante bronnen als output, waarbij de formule bestaat uit een serie van voorwaarden waaraan de output moet voldoen op basis van de input. Deze voorwaarden zijn hierbij ook gerangschikt op basis van hoe belangrijk deze zijn om de relevantie van de output te bepalen. Zoeksystemen zoals die van Google Scholar, wetenschappelijke databases en bibliotheekcatalogi maken gebruik van zo’n algoritme om relevante resultaten te leveren op basis van de zoekvraag van een gebruiker.

DE MYTHE VAN NEUTRALITEIT
Er bestaat een aantal mythes rondom dit soort algoritmes, waarvan een belangrijke: de mythe van neutraliteit. Omdat het algoritme automatisch werkt, wordt het gezien als onafhankelijk van de mens. Toen in 2015 werd vastgesteld dat het fotoherkenningssysteem van Google zwarte mensen labelde als gorilla’s, gaf het bedrijf aan dat het probleem te wijten was aan ‘het algoritme dat nog niet goed genoeg werkte en moest worden aangepast. Het algoritme wordt dus gerepresenteerd en geïnterpreteerd als iets neutraals, en de relevantie, als het algoritme goed werkt, als betrouwbaar. Het algoritme spreekt zogenaamd een ‘waarheid’ uit: ‘Deze resultaten zijn het meest relevant voor deze zoekvraag, op volgende van 1 tot 100.’

Desondanks is door vele onderzoekers duidelijk gemaakt dat algoritmes juist helemaal niet neutraal zijn en dat er sprake kan zijn van bias. In zijn boek Masked by Trust: Bias in Library Discovery laat Matthew Rijdsma bijvoorbeeld zien hoe het bibliotheekzoeksysteem dat door zijn universiteit wordt gebruikt een deel van de tijd resultaten levert die helemaal niet relevant zijn voor zijn zoekvraag.

SCHADELIJKE STEREOTYPEN
Deze subjectieve fouten kunnen ook zeer problematisch worden. Safiya Umoja Noble toont in haar boek Algorithms of Oppression aan hoe de ‘fouten’ die algoritmes maken vaak reflecties zijn van de vooroordelen van de makers, waardoor er ook schadelijke stereotypen kunnen worden bestendigd door wat als ‘relevant’ wordt gepresenteerd. Google heeft dan in 2015 onmiddellijk actie ondernomen om te voorkomen dat zwarte mensen als gorilla’s zouden worden herkend, maar in plaats van het algoritme te verbeteren hebben ze ‘gorilla’ als label uit het systeem gehaald. In een artikel van The New York Times uit 2023 blijkt dat je nog steeds geen foto’s van gorilla’s, chimpansees of andere apen kunt opzoeken in de Google foto-app. Het algoritme is hier dus duidelijk op een bevooroordeelde manier getraind en houdt nog steeds deze stereotypering in stand. 

We komen nu terug bij de vraag: hoe is het mogelijk dat een zoekopdracht naar de stripheld Batman artikelen oplevert over de codeertaal Python, angst voor de tandarts bij kinderen en inheemse soevereiniteit? Hoe wordt de relevantie nou echt bepaald? En wat zijn de gevolgen van subjectiviteit in algoritmes?

‘WORD MATCHING’
De meest gebruikelijke manier om online te zoeken is om de meest relevante zoekterm(en) in te vullen in de ‘basic search’, de bekende simpele zoekbalk. De gebruiker verwacht hierbij dat de resulterende bronnen relevant zijn voor de zoekopdracht. Vaak is het duidelijk dat de relevantie in ieder geval grotendeels wordt bepaald door ‘word matching’, oftewel door de aanwezigheid van de zoekterm in verschillende onderdelen van de bron. Veelal weegt de aanwezigheid van de zoekterm in de titel erg zwaar.

Terwijl dit misschien wel de eenvoudigste manier van zoeken is, kan het ook voor onverwachte problemen zorgen. Een duidelijk voorbeeld hiervan is dat de zoekopdracht Batman een artikel over de programmeertaal Python oplevert. Zoals je misschien al hebt bedacht, bestaat er een model in Python dat ‘Batman’ is genoemd. Dit lijkt misschien een toevallig voorbeeld, maar je hebt hetzelfde probleem met het zoeken naar bijvoorbeeld golven (water of geluid), gerecht (voedsel of rechtbank) en andere homoniemen. Het feit dat het gezochte woord voorkomt in de titel wordt dus gezien als kenmerk van een relevante bron, terwijl dat helemaal niet zo hoeft te zijn.

GEMARGINALISEERDE GROEPEN
Ook het tegenovergestelde is mogelijk: dat de gebruiker relevante bronnen mist die niet specifiek de zoekterm noemen. Denk aan een zoekopdracht met het woord gay om bronnen te vinden over homoseksualiteit en daardoor bronnen missen die de termen queer of lgbtq+ gebruiken. Dit probleem zie je vaak terug bij het zoeken naar een onderwerp waarover gebruikers nog niet veel weten, dus ook niet welke andere zoektermen zij zouden kunnen gebruiken. Je komt dit eveneens veel tegen als de identiteitstermen die een bepaalde groep zelf gebruikt niet overeenkomen met de meest gebruikte termen voor deze groep. Dit is bijvoorbeeld het geval bij het zoeken op de Amerikaanse term African American in plaats van op black, of op mindervalide in plaats van op gehandicapte. De gebruiker zal als gevolg hiervan vaak werken missen van auteurs die al minder goed worden gerepresenteerd in onze samenleving. Tevens zorgt dit voor problemen als de titel juist gebruikmaakt van een discriminerende term of in een andere taal is geschreven dan waarmee wordt gezocht.

Je ziet dat deze vorm van zoeken ertoe leidt dat bepaalde onderwerpen of termen die minder bekend zijn ook minder bekend blijven, terwijl je tegelijkertijd resultaten kunt krijgen die helemaal niet relevant zijn. Door de keuze om ‘word matching’ zo zwaar te laten wegen in het algoritme, ontstaat een bepaalde subjectiviteit waardoor de meest gangbare benaming van onderwerpen en identiteiten wordt bevooroordeeld. Vooral de termen die gemarginaliseerde groepen gebruiken, worden hierdoor dus minder goed gevonden.

CATEGORISERING
Als je het woord Batman opzoekt in de Academic Search Premier-database van EBSCO Publishing, dan vind je uiteraard een hele hoop artikelen over de stripheld. Maar je treft ook binnen de eerste vijf bronnen een artikel aan over inheemse soevereiniteit. Dit is het gevolg van ‘subject terms’, of onderwerptermen, waarin de meeste bronnen van Academic Search Premier zijn opgedeeld. Deze categorisering wordt vaak door databases gebruikt om ervoor te zorgen dat bij het zoeken naar bepaalde termen je ook kunt zoeken naar een ‘subject’, oftewel een heel onderwerp. Je bent dus niet alleen afhankelijk van de aanwezigheid van de gezochte term in de titel of in de tekst. 

Dit kan uiteraard erg nuttig zijn, maar in het geval van Batman gaat het juist mis. John Batman, een man geboren in de voormalige kolonie New South Wales, die bekendheid verwierf vanwege het jagen op boswachters en het leiden van massamoorden op Aboriginals in de Black War van Tasmanië, wordt hier door het algoritme incorrect herkend als Batman (fictional character). Dit kan ook een probleem zijn bij zoeksystemen van de bibliotheek. Een voorbeeld is het eerdergenoemde artikel over angst voor de tandarts bij kinderen. Dit artikel, met de titel Batman or Joker? A mixed‐method approach to understanding children’s perceptions of dentists wordt in de bibliotheekcatalogus gecategoriseerd met Joker als een van de onderwerpen. De classificatie van bronnen in onderwerpen kan dus duidelijk misgaan en voor niet-relevante resultaten zorgen.

SUBJECTIEF PERSPECTIEF
Wat verder belangrijk is om te erkennen is dat deze categorisering voor een rangschikking zorgt die een bepaald perspectief reflecteert. Classificatie en categorisering zijn voor een groot deel willekeurig. Zo kun je een artikel over Batman, de stripheld, categoriseren onder het kopje Striphelden, maar ook onder Joker, vijand van. Het gevolg hiervan is dat een gebruiker die zoekt op basis van een losse term of ‘subject terms’ een bepaald idee krijgt van hoe onderwerpen aan elkaar zijn gerelateerd. 

De subjectiviteit in deze rangschikking van onderwerpen kan ook schadelijk zijn. In de categorisering van de Library of Congress Catalogue (LCC) zie je bijvoorbeeld dat de term vrouw automatisch is gekoppeld aan familie en huwelijk. (Zie LCC-code HQ: ‘The family. Marriage. Women.’) Als een gebruiker de LCC-codes gebruikt om boeken te zoeken over families, komt die dus meer boeken tegen over vrouwen, wat een bepaald idee geeft over de rol van de vrouw in onze samenleving. De gekozen termen zullen daarnaast vaak niet-representatief zijn voor de gemarginaliseerde groepen in de landen van herkomst van deze zoeksystemen, onder meer omdat er termen worden gebruikt om een groep te identificeren die deze groep zelf niet gebruikt. 

Een gevolg hiervan is dat gebruikers worden geïnformeerd over bepaalde relaties tussen onderwerpen, terwijl deze categorisering een subjectief perspectief vertegenwoordigt. Ook kunnen gebruikers meemaken dat ze niet kunnen vinden wat ze zoeken omdat de database niet is gerangschikt op een manier die gemarginaliseerde groepen goed vertegenwoordigt.

INTERVENTIES
We hebben nu gezien hoe algoritmes in zoeksystemen subjectief zijn en dat dit voor problemen kan zorgen. Toch moeten we er gebruik van maken, dus hoe doen we dat als informatieprofessionals op een zo goed mogelijke manier? Ik stel een aantal stappen voor om de onwetendheid over algoritmische zoeksystemen bij onze klanten aan te pakken.

Ten eerste is het belangrijk om klanten goed te informeren over de subjectiviteit van algoritmes. Algoritmes en zoeksystemen worden vaak gezien als iets neutraals, maar zijn dat veelal niet, zoals hierboven is geschetst. Als gebruikers bekend zijn met het feit dat een algoritme niet inherent de meest relevante bronnen zal weergeven, kunnen ze ook beter begrijpen hoe ze het beste gebruik kunnen maken van een zoekstrategie.

In de tweede plaats is het van belang om klanten te trainen kritisch om te gaan met algoritmische zoeksystemen. Dit houdt in dat zij bijvoorbeeld leren om synoniemen te gebruiken voor een meeromvattende zoekstrategie, maar ook dat ze kritisch leren kijken naar hun resultaten. Zo kunnen ze herkennen hoe de subjectiviteit van een algoritme de resultaten van een zoekopdracht beïnvloedt en hoe ze als gevolg daarvan de zoekstrategie daarop kunnen aanpassen.

GESPECIALISEERDE LEESLIJSTEN
Als laatste stap is het belangrijk om expres die bronnen te belichten die vaak minder goed door algoritmes worden gerepresenteerd. Zoals we in dit artikel kunnen zien, zijn het veelal de werken van auteurs van kleur, vrouwen en andere gemarginaliseerde groepen die door het algoritme als ‘minder relevant’ worden beschouwd. Dit is, volgens Safiya Umoja Noble, vaak een gevolg van het feit dat de meeste van deze algoritmes zijn ontwikkeld door een groep die niet de diversiteit van de mensheid representeert en die haar eigen vooroordelen meeneemt in het programmeren van de zoeksystemen. Als informatiespecialisten is het onze taak om dergelijke vooroordelen tegen te gaan en deze bronnen juist beter vindbaar en meer zichtbaar te maken, bijvoorbeeld door gespecialiseerde leeslijsten of collectievorming. Zo komen gebruikers toch in contact met onze gehele collecties in plaats van met een klein deel ervan.

KLANTEN BEGELEIDEN
Zo zie je hoe een simpele zoekopdracht over Batman tot veel verwarring kan leiden door de subjectiviteit van algoritmische zoeksystemen. En dit zijn natuurlijk niet eens alle manieren waarop algoritmes onze zoekresultaten beïnvloeden! In het aldoor groeiende informatielandschap hebben wij als informatiespecialisten nog steeds een grote rol: om onze klanten te begeleiden, om onderbelichte informatie te presenteren en om zo goed mogelijk over dit soort onderwerpen te informeren. <

IP | vakblad voor informatieprofessionals | 01 / 2024

 FEMKE RENIERS

ALGORITMISCHE ZOEKSYSTEMEN     

Omgaan met algoritmes in zoeksystemen

Bye bye bias

Hoe kan een zoekopdracht naar de stripheld Batman ook artikelen opleveren over de codeertaal Python, angst voor de tandarts bij kinderen en inheemse soevereiniteit? We zijn steeds meer afhankelijk van online zoeksystemen om uit de groeiende hoeveelheid informatie te filteren waarin we echt geïnteresseerd zijn, maar deze systemen kunnen fouten maken, vooroordelen hebben en onduidelijk zijn. Waarom gebeurt dat en wat kunnen we eraan doen?

Voor velen is het allang bekend dat de meeste zoeksystemen gebruikmaken van algoritmes. Een algoritme wordt in een artikel van NPO Kennis omschreven als ‘een eindige reeks instructies met een vaststaande volgorde, die de oplossing van een bepaald probleem beschrijft’. Dit is natuurlijk een erg simpele omschrijving van wat vaak heel complexe systemen zijn. In de context van een zoeksysteem kan een algoritme worden gezien als een formule met een zoekvraag als input en een lijst van relevante bronnen als output, waarbij de formule bestaat uit een serie van voorwaarden waaraan de output moet voldoen op basis van de input. Deze voorwaarden zijn hierbij ook gerangschikt op basis van hoe belangrijk deze zijn om de relevantie van de output te bepalen. Zoeksystemen zoals die van Google Scholar, wetenschappelijke databases en bibliotheekcatalogi maken gebruik van zo’n algoritme om relevante resultaten te leveren op basis van de zoekvraag van een gebruiker.

DE MYTHE VAN NEUTRALITEIT
Er bestaat een aantal mythes rondom dit soort algoritmes, waarvan een belangrijke: de mythe van neutraliteit. Omdat het algoritme automatisch werkt, wordt het gezien als onafhankelijk van de mens. Toen in 2015 werd vastgesteld dat het fotoherkenningssysteem van Google zwarte mensen labelde als gorilla’s, gaf het bedrijf aan dat het probleem te wijten was aan ‘het algoritme dat nog niet goed genoeg werkte en moest worden aangepast. Het algoritme wordt dus gerepresenteerd en geïnterpreteerd als iets neutraals, en de relevantie, als het algoritme goed werkt, als betrouwbaar. Het algoritme spreekt zogenaamd een ‘waarheid’ uit: ‘Deze resultaten zijn het meest relevant voor deze zoekvraag, op volgende van 1 tot 100.’

Desondanks is door vele onderzoekers duidelijk gemaakt dat algoritmes juist helemaal niet neutraal zijn en dat er sprake kan zijn van bias. In zijn boek Masked by Trust: Bias in Library Discovery laat Matthew Rijdsma bijvoorbeeld zien hoe het bibliotheekzoeksysteem dat door zijn universiteit wordt gebruikt een deel van de tijd resultaten levert die helemaal niet relevant zijn voor zijn zoekvraag.

SCHADELIJKE STEREOTYPEN
Deze subjectieve fouten kunnen ook zeer problematisch worden. Safiya Umoja Noble toont in haar boek Algorithms of Oppression aan hoe de ‘fouten’ die algoritmes maken vaak reflecties zijn van de vooroordelen van de makers, waardoor er ook schadelijke stereotypen kunnen worden bestendigd door wat als ‘relevant’ wordt gepresenteerd. Google heeft dan in 2015 onmiddellijk actie ondernomen om te voorkomen dat zwarte mensen als gorilla’s zouden worden herkend, maar in plaats van het algoritme te verbeteren hebben ze ‘gorilla’ als label uit het systeem gehaald. In een artikel van The New York Times uit 2023 blijkt dat je nog steeds geen foto’s van gorilla’s, chimpansees of andere apen kunt opzoeken in de Google foto-app. Het algoritme is hier dus duidelijk op een bevooroordeelde manier getraind en houdt nog steeds deze stereotypering in stand. 

We komen nu terug bij de vraag: hoe is het mogelijk dat een zoekopdracht naar de stripheld Batman artikelen oplevert over de codeertaal Python, angst voor de tandarts bij kinderen en inheemse soevereiniteit? Hoe wordt de relevantie nou echt bepaald? En wat zijn de gevolgen van subjectiviteit in algoritmes?

‘WORD MATCHING’
De meest gebruikelijke manier om online te zoeken is om de meest relevante zoekterm(en) in te vullen in de ‘basic search’, de bekende simpele zoekbalk. De gebruiker verwacht hierbij dat de resulterende bronnen relevant zijn voor de zoekopdracht. Vaak is het duidelijk dat de relevantie in ieder geval grotendeels wordt bepaald door ‘word matching’, oftewel door de aanwezigheid van de zoekterm in verschillende onderdelen van de bron. Veelal weegt de aanwezigheid van de zoekterm in de titel erg zwaar.

Terwijl dit misschien wel de eenvoudigste manier van zoeken is, kan het ook voor onverwachte problemen zorgen. Een duidelijk voorbeeld hiervan is dat de zoekopdracht Batman een artikel over de programmeertaal Python oplevert. Zoals je misschien al hebt bedacht, bestaat er een model in Python dat ‘Batman’ is genoemd. Dit lijkt misschien een toevallig voorbeeld, maar je hebt hetzelfde probleem met het zoeken naar bijvoorbeeld golven (water of geluid), gerecht (voedsel of rechtbank) en andere homoniemen. Het feit dat het gezochte woord voorkomt in de titel wordt dus gezien als kenmerk van een relevante bron, terwijl dat helemaal niet zo hoeft te zijn.

GEMARGINALISEERDE GROEPEN
Ook het tegenovergestelde is mogelijk: dat de gebruiker relevante bronnen mist die niet specifiek de zoekterm noemen. Denk aan een zoekopdracht met het woord gay om bronnen te vinden over homoseksualiteit en daardoor bronnen missen die de termen queer of lgbtq+ gebruiken. Dit probleem zie je vaak terug bij het zoeken naar een onderwerp waarover gebruikers nog niet veel weten, dus ook niet welke andere zoektermen zij zouden kunnen gebruiken. Je komt dit eveneens veel tegen als de identiteitstermen die een bepaalde groep zelf gebruikt niet overeenkomen met de meest gebruikte termen voor deze groep. Dit is bijvoorbeeld het geval bij het zoeken op de Amerikaanse term African American in plaats van op black, of op mindervalide in plaats van op gehandicapte. De gebruiker zal als gevolg hiervan vaak werken missen van auteurs die al minder goed worden gerepresenteerd in onze samenleving. Tevens zorgt dit voor problemen als de titel juist gebruikmaakt van een discriminerende term of in een andere taal is geschreven dan waarmee wordt gezocht.

Je ziet dat deze vorm van zoeken ertoe leidt dat bepaalde onderwerpen of termen die minder bekend zijn ook minder bekend blijven, terwijl je tegelijkertijd resultaten kunt krijgen die helemaal niet relevant zijn. Door de keuze om ‘word matching’ zo zwaar te laten wegen in het algoritme, ontstaat een bepaalde subjectiviteit waardoor de meest gangbare benaming van onderwerpen en identiteiten wordt bevooroordeeld. Vooral de termen die gemarginaliseerde groepen gebruiken, worden hierdoor dus minder goed gevonden.

CATEGORISERING
Als je het woord Batman opzoekt in de Academic Search Premier-database van EBSCO Publishing, dan vind je uiteraard een hele hoop artikelen over de stripheld. Maar je treft ook binnen de eerste vijf bronnen een artikel aan over inheemse soevereiniteit. Dit is het gevolg van ‘subject terms’, of onderwerptermen, waarin de meeste bronnen van Academic Search Premier zijn opgedeeld. Deze categorisering wordt vaak door databases gebruikt om ervoor te zorgen dat bij het zoeken naar bepaalde termen je ook kunt zoeken naar een ‘subject’, oftewel een heel onderwerp. Je bent dus niet alleen afhankelijk van de aanwezigheid van de gezochte term in de titel of in de tekst. 

Dit kan uiteraard erg nuttig zijn, maar in het geval van Batman gaat het juist mis. John Batman, een man geboren in de voormalige kolonie New South Wales, die bekendheid verwierf vanwege het jagen op boswachters en het leiden van massamoorden op Aboriginals in de Black War van Tasmanië, wordt hier door het algoritme incorrect herkend als Batman (fictional character). Dit kan ook een probleem zijn bij zoeksystemen van de bibliotheek. Een voorbeeld is het eerdergenoemde artikel over angst voor de tandarts bij kinderen. Dit artikel, met de titel Batman or Joker? A mixed‐method approach to understanding children’s perceptions of dentists wordt in de bibliotheekcatalogus gecategoriseerd met Joker als een van de onderwerpen. De classificatie van bronnen in onderwerpen kan dus duidelijk misgaan en voor niet-relevante resultaten zorgen.

SUBJECTIEF PERSPECTIEF
Wat verder belangrijk is om te erkennen is dat deze categorisering voor een rangschikking zorgt die een bepaald perspectief reflecteert. Classificatie en categorisering zijn voor een groot deel willekeurig. Zo kun je een artikel over Batman, de stripheld, categoriseren onder het kopje Striphelden, maar ook onder Joker, vijand van. Het gevolg hiervan is dat een gebruiker die zoekt op basis van een losse term of ‘subject terms’ een bepaald idee krijgt van hoe onderwerpen aan elkaar zijn gerelateerd. 

De subjectiviteit in deze rangschikking van onderwerpen kan ook schadelijk zijn. In de categorisering van de Library of Congress Catalogue (LCC) zie je bijvoorbeeld dat de term vrouw automatisch is gekoppeld aan familie en huwelijk. (Zie LCC-code HQ: ‘The family. Marriage. Women.’) Als een gebruiker de LCC-codes gebruikt om boeken te zoeken over families, komt die dus meer boeken tegen over vrouwen, wat een bepaald idee geeft over de rol van de vrouw in onze samenleving. De gekozen termen zullen daarnaast vaak niet-representatief zijn voor de gemarginaliseerde groepen in de landen van herkomst van deze zoeksystemen, onder meer omdat er termen worden gebruikt om een groep te identificeren die deze groep zelf niet gebruikt. 

Een gevolg hiervan is dat gebruikers worden geïnformeerd over bepaalde relaties tussen onderwerpen, terwijl deze categorisering een subjectief perspectief vertegenwoordigt. Ook kunnen gebruikers meemaken dat ze niet kunnen vinden wat ze zoeken omdat de database niet is gerangschikt op een manier die gemarginaliseerde groepen goed vertegenwoordigt.

INTERVENTIES
We hebben nu gezien hoe algoritmes in zoeksystemen subjectief zijn en dat dit voor problemen kan zorgen. Toch moeten we er gebruik van maken, dus hoe doen we dat als informatieprofessionals op een zo goed mogelijke manier? Ik stel een aantal stappen voor om de onwetendheid over algoritmische zoeksystemen bij onze klanten aan te pakken.

Ten eerste is het belangrijk om klanten goed te informeren over de subjectiviteit van algoritmes. Algoritmes en zoeksystemen worden vaak gezien als iets neutraals, maar zijn dat veelal niet, zoals hierboven is geschetst. Als gebruikers bekend zijn met het feit dat een algoritme niet inherent de meest relevante bronnen zal weergeven, kunnen ze ook beter begrijpen hoe ze het beste gebruik kunnen maken van een zoekstrategie.

In de tweede plaats is het van belang om klanten te trainen kritisch om te gaan met algoritmische zoeksystemen. Dit houdt in dat zij bijvoorbeeld leren om synoniemen te gebruiken voor een meeromvattende zoekstrategie, maar ook dat ze kritisch leren kijken naar hun resultaten. Zo kunnen ze herkennen hoe de subjectiviteit van een algoritme de resultaten van een zoekopdracht beïnvloedt en hoe ze als gevolg daarvan de zoekstrategie daarop kunnen aanpassen.

GESPECIALISEERDE LEESLIJSTEN
Als laatste stap is het belangrijk om expres die bronnen te belichten die vaak minder goed door algoritmes worden gerepresenteerd. Zoals we in dit artikel kunnen zien, zijn het veelal de werken van auteurs van kleur, vrouwen en andere gemarginaliseerde groepen die door het algoritme als ‘minder relevant’ worden beschouwd. Dit is, volgens Safiya Umoja Noble, vaak een gevolg van het feit dat de meeste van deze algoritmes zijn ontwikkeld door een groep die niet de diversiteit van de mensheid representeert en die haar eigen vooroordelen meeneemt in het programmeren van de zoeksystemen. Als informatiespecialisten is het onze taak om dergelijke vooroordelen tegen te gaan en deze bronnen juist beter vindbaar en meer zichtbaar te maken, bijvoorbeeld door gespecialiseerde leeslijsten of collectievorming. Zo komen gebruikers toch in contact met onze gehele collecties in plaats van met een klein deel ervan.

KLANTEN BEGELEIDEN
Zo zie je hoe een simpele zoekopdracht over Batman tot veel verwarring kan leiden door de subjectiviteit van algoritmische zoeksystemen. En dit zijn natuurlijk niet eens alle manieren waarop algoritmes onze zoekresultaten beïnvloeden! In het aldoor groeiende informatielandschap hebben wij als informatiespecialisten nog steeds een grote rol: om onze klanten te begeleiden, om onderbelichte informatie te presenteren en om zo goed mogelijk over dit soort onderwerpen te informeren. <

IP | vakblad voor informatieprofessionals | 01 / 2024