DIGITAAL ZOEKEN MAARTEN HAFKAMP
Les in digitaal zoeken van Ruben Ros
Maarten Hafkamp
Freelance journalist, schrijver en scenarioschrijver
De digitalisering van bronnen heeft het zoekproces van historici ingrijpend veranderd. Historicus Ruben Ros besprak tijdens de VOGIN-IP-lezing 2026 recente ontwikkelingen in zoektechnologie en komt met vier zoekvormen aan de hand van vier metaforen. ‘We moeten misschien afscheid nemen van het klassieke idee van infrastructuur.’
WIE WAT RUBEN ROS
De gevolgen van de verschuiving voor historisch onderzoek zijn nog onvoldoende doordacht. Er bestaat zelfs een duidelijke mismatch tussen de zoekverwachtingen van historici, en de aannames en mogelijkheden van de informatiesystemen die er nu zijn. Ruben Ros, historicus en postdoctoraal onderzoeker aan de Universiteit Utrecht, bespreekt tijdens zijn lezing ‘De mijn, het web en de boom – historisch zoeken in beweging’ (en daar voegt hij al vertellend een vierde metafoor aan toe: de kaart) hoe hij op een andere manier nadenkt over digitalisering en digitaal zoeken. Bij de start komt hij wel met een disclaimer, want zijn perspectief vandaag is nadrukkelijk historisch: ‘Ik ben me er uiteraard van bewust dat er ook andere belangen en perspectieven mogelijk zijn.’
DE BOOM
Zijn eerste metafoor is de boom. Die slaat op de archiefboom. Het is de metafoor die de hiërarchische structuur van een archief uitdrukt. ‘Ik ben zelf geen archivaris, maar mij is in mijn eerstejaarsvak archivistiek geleerd dat een archief hiërarchisch is opgebouwd: collecties, reeksen, dossiers, documenten. Een archief brengt dus een hiërarchische orde aan en de boom is de verbeelding van die orde.’
Maar die boom is op geen enkele manier natuurlijk, hoewel archivarissen in de eeuwen hiervoor daar vaak wel zo over dachten. Het idee van het archief zoals wij dat kennen ontstond in de negentiende eeuw en hing samen met staatsvorming en allerlei andere maatschappelijke processen. De primaire functie was oorspronkelijk bewijsvoering. Daaruit volgen allerlei principes in de archivistiek, zoals provenance en respect des fonds. Op die manier is een archief dus nooit een neutrale of natuurlijke ordening, legt Ros uit. ‘Dat is meteen ook een relativering van het idee dat er zoiets bestaat als een originele context. Want dat is altijd een relatief begrip. De zoeklogica van dat hiërarchische model is ook hiërarchisch en institutioneel. Je zoekt in een archief om een stuk op te vragen; dat stuk valt binnen een dossier, binnen een reeks, binnen een collectie. Als je geïnteresseerd raakt in andere dozen die er toevallig naast staan, kun je die ook bestuderen.’
BRONNENKRITIEK
Historici zijn gewend aan die fysieke ordening en dat zorgt voor interessante zoekvormen, zoals serendipiteit: het vinden van toevallige vondsten die uiteindelijk heel belangrijk blijken. ‘Tegelijkertijd zitten er allerlei beperkingen en machtsstructuren in zo’n archief ingebakken. Je kunt dus worden beïnvloed door de zeggingskracht ervan. Maar historici hebben ook manieren ontwikkeld om daar productief mee om te gaan.’
Dat begint bij bronnenkritiek, zegt Ros. ‘Je moet kritisch de structuur en de hiërarchie van het archief bevragen. En je moet kennis hebben van de productiecontext: hoe komt dit document in deze doos terecht? Wat is daar gebeurd? Ook moet je de provenance (herkomst) kennen om je vondsten goed te kunnen interpreteren.’ Historici halen daar ontzettend veel kennis uit, juist omdat die ordening zo expliciet is.
Bekende begrippen uit de geschiedfilosofie zijn reading along the grain en reading against the grain. De grain is de draad. ‘Je kunt met de draad meelezen – de hiërarchie volgen – om zo kennis te krijgen van de organisatie die het archief heeft opgebouwd. Maar je kunt ook tegen de draad in lezen. Dan probeer je juist te reconstrueren waar de bias in het archief zit, welke bewerkingen hebben plaatsgevonden. Juist kennis van die context helpt je om stiltes te vinden in het archief.’
HET WEB
De tweede vorm van historisch zoeken en Ros’ tweede metafoor is het web. En dat is helemaal niet hiërarchisch, maar horizontaal. Het is een structuur van nodes en relaties tussen allerlei metadata-elementen en data. Zo ontstaat een ordening als netwerk. Het idee van indexering is natuurlijk al oud, maar tegelijkertijd zijn er ook heel nieuwe vormen, zoals linked open data. Dat is een ‘heel politieke manier’ van zoeken, stelt hij. ‘Veel infrastructuurprojecten zijn gericht op linked open data. Daarbij wordt niet hiërarchisch gezocht, maar via zijpaden: er worden paden door het netwerk bewandeld, van node naar node. Relaties worden gebruikt om nieuwe dingen te vinden. En je kunt heel snel filteren op basis van die relaties. Dat is ongelooflijk productief voor historici, en voor andere gebruikers.’
Maar ook het web kent beperkingen, duidt Ros. Het web is horizontaal en dat is prettig omdat het hiërarchie deels afbreekt, maar zaken als macht en historische gelaagdheid komen veel moeilijker terug in zo’n netwerk. ‘Netwerken zijn vaak plat. Machtsrelaties verdwijnen daardoor makkelijk uit beeld. Bovendien is een netwerk altijd afhankelijk van classificatie. Wat niet gelabeld is als node bestaat in feite niet binnen dat netwerk.’
ONTOLOGIE NODIG
En misschien nog belangrijker: relaties hebben vaak een bias richting verbinding. ‘Dat klinkt abstract, maar veel linked open data-projecten worden gepresenteerd met prachtige netwerkvisualisaties. Die zien er indrukwekkend uit, maar ze laten vooral verbinding zien. Niet alles in het verleden bestaat uit verbinding. Ook hier hebben we dus context nodig. Die zit in de ontologie, of het vocabulaire waarmee het netwerk is opgebouwd.’
De ontologie bepaalt volgens Ros wat personen zijn, wat organisaties zijn, wat gebeurtenissen zijn. Het is de productiecontext van het netwerk. Net als bij het archief moet je die productiecontext kennen om je vondsten goed te kunnen interpreteren. ‘Elke ontologie, hoe eenvoudig ook, is een vorm van ordening en bemiddeling. Ook dat beïnvloedt hoe mensen toegang krijgen tot historische bronnen. Dus ook hier is geen sprake van objectiviteit. En ook hier kunnen historici die structuur niet alleen bekritiseren, maar ook operationeel maken. Ze kunnen ook hier reading along en reading against the grain toepassen.’
DE MIJN
De derde zoekvorm is zijn persoonlijke favoriet: de mijn. Die staat voor een anarchistische, anti-hiërarchische ordening. ‘Het is mijn metafoor voor full-text search: zoeken in de tekst en in historische bronnen zelf. Op het moment dat bronnen zijn gedigitaliseerd en getranscribeerd kun je zoeken met zoektermen, zoals je dat doet in bijvoorbeeld Google Books of Delpher. ‘Die mijn is heel aantrekkelijk. Het lijkt alsof er helemaal geen ordening meer is, maar alsof je met je eigen zoekterm zelf de ordening aanbrengt.’
Zo kun je veel nieuwe resultaten naar boven halen zonder dat daar op voorhand een institutionele ordening aan ten grondslag ligt. ‘De zoeklogica van de mijn is dan ook een logica van delven, hakken en grasduinen, zoals dat vaak wordt omschreven in de context van digitaal zoeken.’ Deze zeer populaire zoekmethode past ook goed bij het type onderzoek dat historici de afgelopen decennia zijn gaan doen. ‘Er is veel interesse in narratieven, symboliek, discoursen. Het idee dat je daar met zoektermen doorheen kunt bewegen sluit daar goed op aan.’
ANACHRONISTISCHE ZOEKTERMEN
Maar ook de mijn kent zijn nadelen. Ros ziet bij zijn studenten dat ze vaak anachronistische zoektermen gebruiken. ‘Ze zoeken bijvoorbeeld naar het woord “polarisatie” in negentiende-eeuwse bronnen, vinden niets en concluderen vervolgens dat er toen geen polarisatie bestond. Maar zo werkt het natuurlijk niet.’ Als je dit soort onderzoek wilt doen, moet je eigenlijk een soort historisch taalkundige worden, legt hij uit. ‘Je moet begrijpen welke woorden in een bepaalde periode gebruikelijk waren.’ Daarnaast ontstaat er snel een vorm van valse coherentie. ‘Delpher bijvoorbeeld blijft populair onder historici omdat vrijwel elke term die je invoert resultaten oplevert. Het gevolg is dat bijna alles een discours lijkt, bijna alles coherent lijkt. Je vindt vaak precies datgene waar je al naar op zoek was. Dat is natuurlijk gevaarlijk en een vorm van selection bias.’
PRODUCTIE- EN HISTORISCHE CONTEXT
Dus wat te doen? Ook hier moeten we volgens Ros, net als bij het archief en het web, de productiecontext begrijpen. Hoe goed is bijvoorbeeld de OCR-kwaliteit? Zeventiende-eeuwse kranten zijn vaak slecht ‘ge-OCR’d’. Hoe zijn artikelen gesegmenteerd? Zoeken we eigenlijk op pagina’s, op artikelen, op paragrafen? Als we zoeken op relevantie – iets wat vaak automatisch gebeurt in zoekinterfaces – dan moeten we ook begrijpen hoe die relevantie wordt berekend. Op basis waarvan vindt rangschikking plaats?
Maar misschien nog belangrijker is de historische context, stelt Ros. Als je zoekt vanuit hedendaagse begrippen moet je ook begrijpen wat in het verleden discursief normaal was. Je moet weten dat in de negentiende eeuw misschien niet over ‘polarisatie’ werd gesproken, maar over ‘twist’, ‘conflict’, ‘onenigheid’ of ‘beroering’. Pas dan kun je effectief zoeken.
WORD EN CONTEXTUELE EMBEDDINGS
Uiteindelijk kun je ook deze discursieve draad operationeel maken, neem word embeddings zoals Word2vec. Dit inmiddels al wat oudere taalmodel is nog steeds bruikbaar om semantische relaties tussen woorden zichtbaar te maken, zegt hij. ‘Op basis van context kun je bepalen welke woorden semantisch verwant zijn. Als je zulke modellen traint op historische perioden kun je zoektermen historisch contextualiseren. Dan kun je bijvoorbeeld zeggen: ik ben geïnteresseerd in “polarisatie” in de negentiende eeuw. Het model kan vervolgens suggereren welke termen destijds vergelijkbare betekenissen hadden. Daarmee kun je je zoektermen historisch herijken. Zie hier een directe correctie op anachronistische bias.’
Ros noemt ook recentere taalmodellen. Die werken met contextuele embeddings. ‘Het betekent dat een woord niet één vaste representatie krijgt, maar telkens opnieuw wordt geïnterpreteerd afhankelijk van de context waarin het voorkomt. Als je zulke modellen finetunet op historische bronnen kun je vragen stellen als: hoe verrassend zou dit woord zijn geweest in deze periode? En: hoe gebruikelijk was deze formulering op dat moment? Op die manier kun je niet alleen zoeken, maar ook historische afwijkingen detecteren. Daarmee wordt ook de mijn, de ogenschijnlijk chaotische zoekvorm, iets wat je methodologisch kunt verfijnen.’
DE KAART
De vierde en laatste zoekvorm is de kaart, een doorontwikkeling van de mijn, maar gebaseerd op recentere technologie. De kaart staat voor semantisch zoeken, waarbij je niet meer op woorden zoekt, maar op betekenis. Alle documenten worden door taalmodellen omgezet in vectoren, reeksen getallen. Die vectoren worden vervolgens geplaatst in een multidimensionale ruimte. Die ruimte noemt Ros de kaart.
De zoeklogica bij de kaart is topologisch: je zoekt niet meer naar woorden, maar naar plekken, en je navigeert door een semantisch landschap. Dat kun je doen op basis van een document waarvan je al weet dat het relevant is. Of je kunt beginnen met een prompt. Vervolgens zoekt het systeem documenten die semantisch verwant zijn.
Het is een fundamenteel andere manier van zoeken, maar ook hier zijn er wel hindernissen. Ros: ‘Het proces van embedding is behoorlijk ondoorzichtig. Als historici klagen over black boxes, dan hebben ze hier absoluut een punt. De modellen die documenten omzetten in vectoren zijn vaak moeilijk te interpreteren. Je weet niet precies hoe een bepaalde representatie tot stand komt.’ Daarnaast is semantische verwantschap volgens hem heel fluïde. Niets is volledig hetzelfde, maar ook niets is volledig verschillend. ‘Je hebt dus allerlei drempelwaarden nodig om betekenisvolle keuzes te maken.’
Historici staan nog maar aan het begin van dat soort onderzoek, maar er is meer dan alleen kritiek leveren, vindt Ros. ‘We kunnen opnieuw de productiecontext expliciteren. Welk basismodel is gebruikt? Op welk corpus is het model getraind? Hoe zijn lange documenten opgeknipt? Welke afstandsmaat wordt gebruikt?’ Ook dat zijn methodologische keuzes, en opnieuw speelt historische context een centrale rol. Want ook op een semantische kaart moet je begrijpen wat woorden en betekenissen in een bepaalde periode inhielden. ‘Pas dan kun je effectief navigeren.’
ILLUSIE
Na het bespreken van de vier metaforen geeft Ros een korte tussenstand: ‘Ordening is bij alle vier onvermijdelijk. Elke vorm van zoeken brengt een bepaalde vorm van bemiddeling met zich mee. Het idee van onmiddellijke, neutrale of volledig transparante toegang tot historische bronnen is een illusie. Elke manier van zoeken vormt ook een manier van vinden. Ik wil historici die kritisch staan tegenover digitalisering echter duidelijk maken dat context niet alleen iets is wat je achteraf moet bekritiseren. Context is ook iets wat kenbaar, analyseerbaar en ontwerpbaar is. Je kunt de context van een archief, een netwerk, een zoekmachine of een taalmodel expliciteren. Je kunt ermee werken, checks and balances inbouwen en zoeksystemen ontwerpen die niet ondanks maar juist dankzij hun bemiddeling bruikbaar zijn.’
GESITUEERD ZOEKEN
De vraag is dus niet hoe we zoeken volledig neutraal maken, maar gesitueerd. Daarmee bedoelt hij dat we niet op zoek moeten naar één universele zoekinterface, één allesomvattend systeem of semantische zoekmachine waarin we alle collecties samenbrengen. Nee, juist naar zoekvormen die zijn afgestemd op specifieke historische vragen. ‘Zoekvormen die vertrekken vanuit concrete onderzoeksvragen, concrete bronnen en concrete contexten. Dat betekent ook dat zoeken niet noodzakelijk op het niveau van grote, centrale infrastructuren hoeft plaats te vinden. Sterker nog: misschien moet het juist lokaal gebeuren, op het niveau van onderzoekers, onderzoeksgroepen, projecten.’
Gesitueerd zoeken vraagt om verschillende zoekvormen naast elkaar, om systemen die expliciet maken wat hun ordening is. Wat doen we precies wanneer we zoeken? Welke keuzes zitten daarin, welke aannames en vormen van bias of uitsluiting? Maar ook: welke mogelijkheden? Welke onverwachte paden? Welke vormen van serendipiteit?
Gesitueerd zoeken betekent dus ook dat we verschillende vormen van context in kaart brengen. Ros: ‘Als je dat weet kun je ook afwijkingen, onverwachte formuleringen en historische verrassingen herkennen. En daarmee kun je serendipiteit ontwerpen. Niet als toeval, maar als methodologische mogelijkheid.’
GEEN BLAUWDRUK
Ros heeft geen blauwdruk voor hoe gesitueerd zoeken er precies uit moet zien. Wel denkt hij dat zulke systemen te ontwerpen zijn. Zelf werkt hij aan een project over crisis, als voorbeeld. ‘Wij zijn geïnteresseerd in de vraag hoe, na een ingrijpende gebeurtenis, het idee ontstaat dat er sprake is van een crisis. Wanneer wordt iets eigenlijk een crisis genoemd en wat zijn de gevolgen daarvan? We kunnen zo’n vraag niet beantwoorden door simpelweg “crisis” in Delpher in te typen. Dat zou methodologisch veel te simplistisch zijn. Eerst moet je lokale corpora (subcorpora) samenstellen, verzamelingen bronnen die betrekking hebben op één specifieke gebeurtenis, zoals de Watersnoodramp. Dat kun je doen op basis van zoektermen, semantisch zoeken en entiteiten. Vervolgens kun je binnen dat corpus onderzoeken wat normaal is. Welke zoektermen kunnen wij gebruiken aan de hand van die word-of-fact-modellen. Op basis daarvan kunnen we onze zoekmethoden opnieuw afstemmen.’
Zo combineer je verschillende zoekvormen ineen, waarbij je rekening houdt met historische condities, broncontext, semantische en technische context.
EXIT KLASSIEK IDEE VAN INFRASTRUCTUUR
‘De belangrijke consequentie is dat we misschien afscheid moeten nemen van het klassieke idee van infrastructuur’, besluit Ros. ‘Ik weet dat dat drastisch klinkt, maar als we zoeken werkelijk wetenschappelijk verantwoord willen maken, hebben we wellicht minder behoefte aan steeds grotere, abstractere systemen. Minder behoefte aan één universele zoekinterface. In plaats daarvan moeten we naar lokale zoekpraktijken, en daar moeten we dan vervolgens structuur tussen aanbrengen. Daar software voor ontwikkelen die bij een project past, maar die we bijvoorbeeld wel proberen te generaliseren, zodat anderen het ook willen gebruiken. Zo ontsnappen we misschien ook aan het idee dat historisch onderzoek vooral gebaat zou zijn bij steeds snellere en betere toegang.’ <
‘Boom slaat op de archiefboom; dit is de metafoor die de hiërarchische structuur van een archief uitdrukt’
‘Het web is een structuur van nodes en relaties tussen allerlei metadata-elementen en data. Zo ontstaat een ordening als netwerk’
‘De zoeklogica van de mijn is die van delven, hakken en grasduinen, zoals dat vaak wordt omschreven in de context van digitaal zoeken’
‘De kaart staat voor semantisch zoeken, waarbij je niet meer op woorden zoekt, maar op betekenis’
‘Er is een mismatch tussen de zoekverwachtingen, en de mogelijkheden van de informatiesystemen die er nu zijn’
‘Het archief zoals wij dat kennen ontstond in de negentiende eeuw en hing samen met staatsvorming. De primaire functie was bewijsvoering’
‘Het idee van indexering is al oud, maar tegelijkertijd zijn er ook nieuwe vormen, zoals linked open data – een heel politieke manier van zoeken’
‘De mijn is heel aantrekkelijk. Het lijkt alsof er geen ordening meer is, maar alsof je die zelf met je eigen zoekterm aanbrengt’
‘In Delpher vind je vaak precies datgene waar je al naar op zoek was. Dat is natuurlijk een vorm van selection bias’
‘De kaart is topologisch: je zoekt niet meer naar woorden, maar naar plekken, en je navigeert door een semantisch landschap’
‘Het idee van onmiddellijke, neutrale of volledig transparante toegang tot historische bronnen is een illusie’
‘Gesitueerd zoeken vraagt om verschillende zoekvormen naast elkaar, om systemen die expliciet maken wat hun ordening is’
IP | vakblad voor informatieprofessionals | 05 / 2026
De digitalisering van bronnen heeft het zoekproces van historici ingrijpend veranderd. Historicus Ruben Ros besprak tijdens de VOGIN-IP-lezing 2026 recente ontwikkelingen in zoektechnologie en komt met vier zoekvormen aan de hand van vier metaforen. ‘We moeten misschien afscheid nemen van het klassieke idee van infrastructuur.’
Les in digitaal zoeken van Ruben Ros
DIGITAAL ZOEKEN MAARTEN HAFKAMP
‘De zoeklogica van de mijn is die van delven, hakken en grasduinen, zoals dat vaak wordt omschreven in de context van digitaal zoeken’
DE MIJN
De derde zoekvorm is zijn persoonlijke favoriet: de mijn. Die staat voor een anarchistische, anti-hiërarchische ordening. ‘Het is mijn metafoor voor full-text search: zoeken in de tekst en in historische bronnen zelf. Op het moment dat bronnen zijn gedigitaliseerd en getranscribeerd kun je zoeken met zoektermen, zoals je dat doet in bijvoorbeeld Google Books of Delpher. ‘Die mijn is heel aantrekkelijk. Het lijkt alsof er helemaal geen ordening meer is, maar alsof je met je eigen zoekterm zelf de ordening aanbrengt.’
Zo kun je veel nieuwe resultaten naar boven halen zonder dat daar op voorhand een institutionele ordening aan ten grondslag ligt. ‘De zoeklogica van de mijn is dan ook een logica van delven, hakken en grasduinen, zoals dat vaak wordt omschreven in de context van digitaal zoeken.’ Deze zeer populaire zoekmethode past ook goed bij het type onderzoek dat historici de afgelopen decennia zijn gaan doen. ‘Er is veel interesse in narratieven, symboliek, discoursen. Het idee dat je daar met zoektermen doorheen kunt bewegen sluit daar goed op aan.’
ANACHRONISTISCHE ZOEKTERMEN
Maar ook de mijn kent zijn nadelen. Ros ziet bij zijn studenten dat ze vaak anachronistische zoektermen gebruiken. ‘Ze zoeken bijvoorbeeld naar het woord “polarisatie” in negentiende-eeuwse bronnen, vinden niets en concluderen vervolgens dat er toen geen polarisatie bestond. Maar zo werkt het natuurlijk niet.’ Als je dit soort onderzoek wilt doen, moet je eigenlijk een soort historisch taalkundige worden, legt hij uit. ‘Je moet begrijpen welke woorden in een bepaalde periode gebruikelijk waren.’ Daarnaast ontstaat er snel een vorm van valse coherentie. ‘Delpher bijvoorbeeld blijft populair onder historici omdat vrijwel elke term die je invoert resultaten oplevert. Het gevolg is dat bijna alles een discours lijkt, bijna alles coherent lijkt. Je vindt vaak precies datgene waar je al naar op zoek was. Dat is natuurlijk gevaarlijk en een vorm van selection bias.’
PRODUCTIE- EN HISTORISCHE CONTEXT
Dus wat te doen? Ook hier moeten we volgens Ros, net als bij het archief en het web, de productiecontext begrijpen. Hoe goed is bijvoorbeeld de OCR-kwaliteit? Zeventiende-eeuwse kranten zijn vaak slecht ‘ge-OCR’d’. Hoe zijn artikelen gesegmenteerd? Zoeken we eigenlijk op pagina’s, op artikelen, op paragrafen? Als we zoeken op relevantie – iets wat vaak automatisch gebeurt in zoekinterfaces – dan moeten we ook begrijpen hoe die relevantie wordt berekend. Op basis waarvan vindt rangschikking plaats?
Maar misschien nog belangrijker is de historische context, stelt Ros. Als je zoekt vanuit hedendaagse begrippen moet je ook begrijpen wat in het verleden discursief normaal was. Je moet weten dat in de negentiende eeuw misschien niet over ‘polarisatie’ werd gesproken, maar over ‘twist’, ‘conflict’, ‘onenigheid’ of ‘beroering’. Pas dan kun je effectief zoeken.
WORD EN CONTEXTUELE EMBEDDINGS
Uiteindelijk kun je ook deze discursieve draad operationeel maken, neem word embeddings zoals Word2vec. Dit inmiddels al wat oudere taalmodel is nog steeds bruikbaar om semantische relaties tussen woorden zichtbaar te maken, zegt hij. ‘Op basis van context kun je bepalen welke woorden semantisch verwant zijn. Als je zulke modellen traint op historische perioden kun je zoektermen historisch contextualiseren. Dan kun je bijvoorbeeld zeggen: ik ben geïnteresseerd in “polarisatie” in de negentiende eeuw. Het model kan vervolgens suggereren welke termen destijds vergelijkbare betekenissen hadden. Daarmee kun je je zoektermen historisch herijken. Zie hier een directe correctie op anachronistische bias.’
Ros noemt ook recentere taalmodellen. Die werken met contextuele embeddings. ‘Het betekent dat een woord niet één vaste representatie krijgt, maar telkens opnieuw wordt geïnterpreteerd afhankelijk van de context waarin het voorkomt. Als je zulke modellen finetunet op historische bronnen kun je vragen stellen als: hoe verrassend zou dit woord zijn geweest in deze periode? En: hoe gebruikelijk was deze formulering op dat moment? Op die manier kun je niet alleen zoeken, maar ook historische afwijkingen detecteren. Daarmee wordt ook de mijn, de ogenschijnlijk chaotische zoekvorm, iets wat je methodologisch kunt verfijnen.’
‘Het web is een structuur van nodes en relaties tussen allerlei metadata-elementen en data. Zo ontstaat een ordening als netwerk’
HET WEB
De tweede vorm van historisch zoeken en Ros’ tweede metafoor is het web. En dat is helemaal niet hiërarchisch, maar horizontaal. Het is een structuur van nodes en relaties tussen allerlei metadata-elementen en data. Zo ontstaat een ordening als netwerk. Het idee van indexering is natuurlijk al oud, maar tegelijkertijd zijn er ook heel nieuwe vormen, zoals linked open data. Dat is een ‘heel politieke manier’ van zoeken, stelt hij. ‘Veel infrastructuurprojecten zijn gericht op linked open data. Daarbij wordt niet hiërarchisch gezocht, maar via zijpaden: er worden paden door het netwerk bewandeld, van node naar node. Relaties worden gebruikt om nieuwe dingen te vinden. En je kunt heel snel filteren op basis van die relaties. Dat is ongelooflijk productief voor historici, en voor andere gebruikers.’
Maar ook het web kent beperkingen, duidt Ros. Het web is horizontaal en dat is prettig omdat het hiërarchie deels afbreekt, maar zaken als macht en historische gelaagdheid komen veel moeilijker terug in zo’n netwerk. ‘Netwerken zijn vaak plat. Machtsrelaties verdwijnen daardoor makkelijk uit beeld. Bovendien is een netwerk altijd afhankelijk van classificatie. Wat niet gelabeld is als node bestaat in feite niet binnen dat netwerk.’
ONTOLOGIE NODIG
En misschien nog belangrijker: relaties hebben vaak een bias richting verbinding. ‘Dat klinkt abstract, maar veel linked open data-projecten worden gepresenteerd met prachtige netwerkvisualisaties. Die zien er indrukwekkend uit, maar ze laten vooral verbinding zien. Niet alles in het verleden bestaat uit verbinding. Ook hier hebben we dus context nodig. Die zit in de ontologie, of het vocabulaire waarmee het netwerk is opgebouwd.’
De ontologie bepaalt volgens Ros wat personen zijn, wat organisaties zijn, wat gebeurtenissen zijn. Het is de productiecontext van het netwerk. Net als bij het archief moet je die productiecontext kennen om je vondsten goed te kunnen interpreteren. ‘Elke ontologie, hoe eenvoudig ook, is een vorm van ordening en bemiddeling. Ook dat beïnvloedt hoe mensen toegang krijgen tot historische bronnen. Dus ook hier is geen sprake van objectiviteit. En ook hier kunnen historici die structuur niet alleen bekritiseren, maar ook operationeel maken. Ze kunnen ook hier reading along en reading against the grain toepassen.’
WIE WAT RUBEN ROS
De gevolgen van de verschuiving voor historisch onderzoek zijn nog onvoldoende doordacht. Er bestaat zelfs een duidelijke mismatch tussen de zoekverwachtingen van historici, en de aannames en mogelijkheden van de informatiesystemen die er nu zijn. Ruben Ros, historicus en postdoctoraal onderzoeker aan de Universiteit Utrecht, bespreekt tijdens zijn lezing ‘De mijn, het web en de boom – historisch zoeken in beweging’ (en daar voegt hij al vertellend een vierde metafoor aan toe: de kaart) hoe hij op een andere manier nadenkt over digitalisering en digitaal zoeken. Bij de start komt hij wel met een disclaimer, want zijn perspectief vandaag is nadrukkelijk historisch: ‘Ik ben me er uiteraard van bewust dat er ook andere belangen en perspectieven mogelijk zijn.’
‘Boom slaat op de archiefboom; dit is de metafoor die de hiërarchische structuur van een archief uitdrukt’
DE BOOM
Zijn eerste metafoor is de boom. Die slaat op de archiefboom. Het is de metafoor die de hiërarchische structuur van een archief uitdrukt. ‘Ik ben zelf geen archivaris, maar mij is in mijn eerstejaarsvak archivistiek geleerd dat een archief hiërarchisch is opgebouwd: collecties, reeksen, dossiers, documenten. Een archief brengt dus een hiërarchische orde aan en de boom is de verbeelding van die orde.’
Maar die boom is op geen enkele manier natuurlijk, hoewel archivarissen in de eeuwen hiervoor daar vaak wel zo over dachten. Het idee van het archief zoals wij dat kennen ontstond in de negentiende eeuw en hing samen met staatsvorming en allerlei andere maatschappelijke processen. De primaire functie was oorspronkelijk bewijsvoering. Daaruit volgen allerlei principes in de archivistiek, zoals provenance en respect des fonds. Op die manier is een archief dus nooit een neutrale of natuurlijke ordening, legt Ros uit. ‘Dat is meteen ook een relativering van het idee dat er zoiets bestaat als een originele context. Want dat is altijd een relatief begrip. De zoeklogica van dat hiërarchische model is ook hiërarchisch en institutioneel. Je zoekt in een archief om een stuk op te vragen; dat stuk valt binnen een dossier, binnen een reeks, binnen een collectie. Als je geïnteresseerd raakt in andere dozen die er toevallig naast staan, kun je die ook bestuderen.’
BRONNENKRITIEK
Historici zijn gewend aan die fysieke ordening en dat zorgt voor interessante zoekvormen, zoals serendipiteit: het vinden van toevallige vondsten die uiteindelijk heel belangrijk blijken. ‘Tegelijkertijd zitten er allerlei beperkingen en machtsstructuren in zo’n archief ingebakken. Je kunt dus worden beïnvloed door de zeggingskracht ervan. Maar historici hebben ook manieren ontwikkeld om daar productief mee om te gaan.’
Dat begint bij bronnenkritiek, zegt Ros. ‘Je moet kritisch de structuur en de hiërarchie van het archief bevragen. En je moet kennis hebben van de productiecontext: hoe komt dit document in deze doos terecht? Wat is daar gebeurd? Ook moet je de provenance (herkomst) kennen om je vondsten goed te kunnen interpreteren.’ Historici halen daar ontzettend veel kennis uit, juist omdat die ordening zo expliciet is.
Bekende begrippen uit de geschiedfilosofie zijn reading along the grain en reading against the grain. De grain is de draad. ‘Je kunt met de draad meelezen – de hiërarchie volgen – om zo kennis te krijgen van de organisatie die het archief heeft opgebouwd. Maar je kunt ook tegen de draad in lezen. Dan probeer je juist te reconstrueren waar de bias in het archief zit, welke bewerkingen hebben plaatsgevonden. Juist kennis van die context helpt je om stiltes te vinden in het archief.’
‘De kaart staat voor semantisch zoeken, waarbij je niet meer op woorden zoekt, maar op betekenis’
DE KAART
De vierde en laatste zoekvorm is de kaart, een doorontwikkeling van de mijn, maar gebaseerd op recentere technologie. De kaart staat voor semantisch zoeken, waarbij je niet meer op woorden zoekt, maar op betekenis. Alle documenten worden door taalmodellen omgezet in vectoren, reeksen getallen. Die vectoren worden vervolgens geplaatst in een multidimensionale ruimte. Die ruimte noemt Ros de kaart.
De zoeklogica bij de kaart is topologisch: je zoekt niet meer naar woorden, maar naar plekken, en je navigeert door een semantisch landschap. Dat kun je doen op basis van een document waarvan je al weet dat het relevant is. Of je kunt beginnen met een prompt. Vervolgens zoekt het systeem documenten die semantisch verwant zijn.
Het is een fundamenteel andere manier van zoeken, maar ook hier zijn er wel hindernissen. Ros: ‘Het proces van embedding is behoorlijk ondoorzichtig. Als historici klagen over black boxes, dan hebben ze hier absoluut een punt. De modellen die documenten omzetten in vectoren zijn vaak moeilijk te interpreteren. Je weet niet precies hoe een bepaalde representatie tot stand komt.’ Daarnaast is semantische verwantschap volgens hem heel fluïde. Niets is volledig hetzelfde, maar ook niets is volledig verschillend. ‘Je hebt dus allerlei drempelwaarden nodig om betekenisvolle keuzes te maken.’
Historici staan nog maar aan het begin van dat soort onderzoek, maar er is meer dan alleen kritiek leveren, vindt Ros. ‘We kunnen opnieuw de productiecontext expliciteren. Welk basismodel is gebruikt? Op welk corpus is het model getraind? Hoe zijn lange documenten opgeknipt? Welke afstandsmaat wordt gebruikt?’ Ook dat zijn methodologische keuzes, en opnieuw speelt historische context een centrale rol. Want ook op een semantische kaart moet je begrijpen wat woorden en betekenissen in een bepaalde periode inhielden. ‘Pas dan kun je effectief navigeren.’
ILLUSIE
Na het bespreken van de vier metaforen geeft Ros een korte tussenstand: ‘Ordening is bij alle vier onvermijdelijk. Elke vorm van zoeken brengt een bepaalde vorm van bemiddeling met zich mee. Het idee van onmiddellijke, neutrale of volledig transparante toegang tot historische bronnen is een illusie. Elke manier van zoeken vormt ook een manier van vinden. Ik wil historici die kritisch staan tegenover digitalisering echter duidelijk maken dat context niet alleen iets is wat je achteraf moet bekritiseren. Context is ook iets wat kenbaar, analyseerbaar en ontwerpbaar is. Je kunt de context van een archief, een netwerk, een zoekmachine of een taalmodel expliciteren. Je kunt ermee werken, checks and balances inbouwen en zoeksystemen ontwerpen die niet ondanks maar juist dankzij hun bemiddeling bruikbaar zijn.’
GESITUEERD ZOEKEN
De vraag is dus niet hoe we zoeken volledig neutraal maken, maar gesitueerd. Daarmee bedoelt hij dat we niet op zoek moeten naar één universele zoekinterface, één allesomvattend systeem of semantische zoekmachine waarin we alle collecties samenbrengen. Nee, juist naar zoekvormen die zijn afgestemd op specifieke historische vragen. ‘Zoekvormen die vertrekken vanuit concrete onderzoeksvragen, concrete bronnen en concrete contexten. Dat betekent ook dat zoeken niet noodzakelijk op het niveau van grote, centrale infrastructuren hoeft plaats te vinden. Sterker nog: misschien moet het juist lokaal gebeuren, op het niveau van onderzoekers, onderzoeksgroepen, projecten.’
Gesitueerd zoeken vraagt om verschillende zoekvormen naast elkaar, om systemen die expliciet maken wat hun ordening is. Wat doen we precies wanneer we zoeken? Welke keuzes zitten daarin, welke aannames en vormen van bias of uitsluiting? Maar ook: welke mogelijkheden? Welke onverwachte paden? Welke vormen van serendipiteit?
Gesitueerd zoeken betekent dus ook dat we verschillende vormen van context in kaart brengen. Ros: ‘Als je dat weet kun je ook afwijkingen, onverwachte formuleringen en historische verrassingen herkennen. En daarmee kun je serendipiteit ontwerpen. Niet als toeval, maar als methodologische mogelijkheid.’
GEEN BLAUWDRUK
Ros heeft geen blauwdruk voor hoe gesitueerd zoeken er precies uit moet zien. Wel denkt hij dat zulke systemen te ontwerpen zijn. Zelf werkt hij aan een project over crisis, als voorbeeld. ‘Wij zijn geïnteresseerd in de vraag hoe, na een ingrijpende gebeurtenis, het idee ontstaat dat er sprake is van een crisis. Wanneer wordt iets eigenlijk een crisis genoemd en wat zijn de gevolgen daarvan? We kunnen zo’n vraag niet beantwoorden door simpelweg “crisis” in Delpher in te typen. Dat zou methodologisch veel te simplistisch zijn. Eerst moet je lokale corpora (subcorpora) samenstellen, verzamelingen bronnen die betrekking hebben op één specifieke gebeurtenis, zoals de Watersnoodramp. Dat kun je doen op basis van zoektermen, semantisch zoeken en entiteiten. Vervolgens kun je binnen dat corpus onderzoeken wat normaal is. Welke zoektermen kunnen wij gebruiken aan de hand van die word-of-fact-modellen. Op basis daarvan kunnen we onze zoekmethoden opnieuw afstemmen.’
Zo combineer je verschillende zoekvormen ineen, waarbij je rekening houdt met historische condities, broncontext, semantische en technische context.
EXIT KLASSIEK IDEE VAN INFRASTRUCTUUR
‘De belangrijke consequentie is dat we misschien afscheid moeten nemen van het klassieke idee van infrastructuur’, besluit Ros. ‘Ik weet dat dat drastisch klinkt, maar als we zoeken werkelijk wetenschappelijk verantwoord willen maken, hebben we wellicht minder behoefte aan steeds grotere, abstractere systemen. Minder behoefte aan één universele zoekinterface. In plaats daarvan moeten we naar lokale zoekpraktijken, en daar moeten we dan vervolgens structuur tussen aanbrengen. Daar software voor ontwikkelen die bij een project past, maar die we bijvoorbeeld wel proberen te generaliseren, zodat anderen het ook willen gebruiken. Zo ontsnappen we misschien ook aan het idee dat historisch onderzoek vooral gebaat zou zijn bij steeds snellere en betere toegang.’ <
IP | vakblad voor informatieprofessionals | 05 / 2026