KB ONDERZOEKSKRONIEK Marie Buesink
Om de retrocollectie van de KB te catalogiseren is de hulp ingeschakeld van AI. Belangrijk daarbij is de balans te vinden tussen wat automatisch kan worden gedaan en wat door de mens. Inkijkje in de retrotool.
De retrotool
in actie
Marie Buesink
Interim-coördinator vernieuwing en catalogiseerder bij de KB, de nationale bibliotheek
In de rubriek
‘KB Onderzoekskroniek’ beschrijven medewerkers
van de afdeling Onderzoek van de KB, de nationale bibliotheek
hun resultaten, trends
en vondsten.
‘Met de tool wordt het catalogiseerproces sneller en overzichtelijker, maar de catalogiseerder beslist‘
De werkplekopzet met de documentscanner rechts
‘De belangrijkste doelen zijn overtypwerk beperken, de verwerking versnellen en de beschrijving minder foutgevoelig maken‘
Sinds de oprichting van het Depot van Nederlandse Publicaties in 1974 verzamelt de KB alle publicaties uit en over Nederland. De publicaties die retrospectief worden verzameld om gaten in de collecties te dichten, wordt de retrocollectie genoemd. Deze bestaat inmiddels uit enkele tienduizenden titels waarvan het merendeel nog niet is gecatalogiseerd. Het verwerken van de retrocollectie is een enorme en complexe uitdaging, vooral met het oog op de geplande ingebruikname van het nieuwe boekenmagazijn in 2026. Dit benadrukt de noodzaak voor een geautomatiseerde oplossing die tegelijkertijd de kwaliteit van de bibliografische beschrijvingen in de catalogus evenaart.
OPTICAL CHARACTER RECOGNITION
Kunstmatige intelligentie lijkt een uitkomst te bieden. Samen met een externe partij (Deus) ontwikkelde de afdeling Collectiedata daarom een digitale tool, aangesloten op een documentscanner, die een groot deel van het verwerken van de retrocollectie voor de catalogus automatiseert middels optical character recognition (OCR).
De werkwijze is simpel: de catalogiseerder maakt met een mobiele documentscanner foto’s van de titelpagina en het colofon van een boek. OCR leest de letterlijke tekst van de foto’s, en de tool past KB’s catalogiseerregels toe om informatie hieruit te halen – gaat het om een auteur, titel, uitgever, drukvermelding enzovoort – en schaart deze onder de juiste categorie die overeenkomt met een bijbehorend veld in het catalogiseersysteem Alma. Vervolgens ziet de catalogiseerder in de tool in een oogopslag mogelijke matches met het boek in de catalogus, inclusief de belangrijkste onderscheidende kenmerken en de bijbehorende bezitsinformatie van de KB. Ook elders in de keten biedt deze functionaliteit kansen: denk bijvoorbeeld aan collectiespecialisten die bij het beoordelen van schenkingen snel en effectief boeken kunnen selecteren die de KB nog mist.
ONDERSTEUNING, GEEN VERVANGING
Indien een boek nog niet aanwezig is in het depot, zet de catalogiseerder via de tool de opgehaalde informatie van OCR om in een basisbeschrijving voor de catalogus. De catalogiseerder controleert en vult eventueel aan, waarna het boek beschikbaar komt voor het publiek. Het speerpunt van de tool is dus ondersteuning, geen vervanging: het catalogiseerproces wordt sneller en overzichtelijker, maar de catalogiseerder beslist.
Voor de tool geldt work in progress – soms heeft hij nog moeite met bepaalde boeken, maar de KB is bijna toe aan de eerste release voor het ontdubbelen en verwerken van de retrocollectie.
VOOR EN DOOR CATALOGISEERDERS
De kunst is hierbij om de juiste balans te vinden tussen automatisering en handwerk, en om op een verantwoorde manier AI toe te passen. Welke handelingen kunnen (en mogen) worden geautomatiseerd? Welke behoeven extra aandacht van de catalogiseerder? En bij welke functionaliteiten hebben de catalogiseerders zelf het meeste baat?
Er zijn natuurlijk altijd gevallen die maatwerk vereisen. De tool wordt daarom nu nog alleen getest binnen de retrocollectie. De belangrijkste doelen zijn overtypwerk beperken, de verwerking versnellen en de beschrijving minder foutgevoelig maken. Gespecialiseerde catalogiseerkennis is schaars en zeer kostbaar, en komt zo vrij voor complexere werkstromen en vraagstukken.
AI IN DE PRAKTIJK
AI lijkt dus een veelbelovend hulpmiddel om deze retrocollectie tijdig te verwerken, maar kent tegelijkertijd haken en ogen. De KB bepaalde begin dit jaar dat haar collecties niet mogen worden gebruikt voor het trainen van commerciële AI omdat deze modellen veelal zonder toestemming data binnenhalen. Het is dus belangrijk dat AI-gedreven uitkomsten in de bibliotheeksector, waaronder de retrotool, verantwoord omgaan met de informatie die de KB verwerkt.
Desalniettemin zijn er hoopgevende signalen: de Belgische nationale bibliotheek KBR ontwikkelt bijvoorbeeld sinds vorig jaar eenzelfde soort tool. Met het oog op de snel veranderende bibliotheekwereld is het optimaal benutten van AI—ondanks alle uitdagingen—een kwestie van het voortouw nemen.
Benieuwd naar andere afleveringen van de KB-onderzoeksrubriek? Je vindt ze in het online archief op informatieprofessional.nl. <
IP | vakblad voor informatieprofessionals | 05 / 2024
De retrotool
in actie
Marie Buesink
Interim-coördinator vernieuwing en catalogiseerder bij de KB, de nationale bibliotheek
KB ONDERZOEKSKRONIEK Marie Buesink
In de rubriek
‘KB Onderzoekskroniek’ beschrijven medewerkers
van de afdeling Onderzoek van de KB, de nationale bibliotheek
hun resultaten, trends
en vondsten.
Sinds de oprichting van het Depot van Nederlandse Publicaties in 1974 verzamelt de KB alle publicaties uit en over Nederland. De publicaties die retrospectief worden verzameld om gaten in de collecties te dichten, wordt de retrocollectie genoemd. Deze bestaat inmiddels uit enkele tienduizenden titels waarvan het merendeel nog niet is gecatalogiseerd. Het verwerken van de retrocollectie is een enorme en complexe uitdaging, vooral met het oog op de geplande ingebruikname van het nieuwe boekenmagazijn in 2026. Dit benadrukt de noodzaak voor een geautomatiseerde oplossing die tegelijkertijd de kwaliteit van de bibliografische beschrijvingen in de catalogus evenaart.
OPTICAL CHARACTER RECOGNITION
Kunstmatige intelligentie lijkt een uitkomst te bieden. Samen met een externe partij (Deus) ontwikkelde de afdeling Collectiedata daarom een digitale tool, aangesloten op een documentscanner, die een groot deel van het verwerken van de retrocollectie voor de catalogus automatiseert middels optical character recognition (OCR).
De werkwijze is simpel: de catalogiseerder maakt met een mobiele documentscanner foto’s van de titelpagina en het colofon van een boek. OCR leest de letterlijke tekst van de foto’s, en de tool past KB’s catalogiseerregels toe om informatie hieruit te halen – gaat het om een auteur, titel, uitgever, drukvermelding enzovoort – en schaart deze onder de juiste categorie die overeenkomt met een bijbehorend veld in het catalogiseersysteem Alma. Vervolgens ziet de catalogiseerder in de tool in een oogopslag mogelijke matches met het boek in de catalogus, inclusief de belangrijkste onderscheidende kenmerken en de bijbehorende bezitsinformatie van de KB. Ook elders in de keten biedt deze functionaliteit kansen: denk bijvoorbeeld aan collectiespecialisten die bij het beoordelen van schenkingen snel en effectief boeken kunnen selecteren die de KB nog mist.
ONDERSTEUNING, GEEN VERVANGING
Indien een boek nog niet aanwezig is in het depot, zet de catalogiseerder via de tool de opgehaalde informatie van OCR om in een basisbeschrijving voor de catalogus. De catalogiseerder controleert en vult eventueel aan, waarna het boek beschikbaar komt voor het publiek. Het speerpunt van de tool is dus ondersteuning, geen vervanging: het catalogiseerproces wordt sneller en overzichtelijker, maar de catalogiseerder beslist.
Voor de tool geldt work in progress – soms heeft hij nog moeite met bepaalde boeken, maar de KB is bijna toe aan de eerste release voor het ontdubbelen en verwerken van de retrocollectie.
VOOR EN DOOR CATALOGISEERDERS
De kunst is hierbij om de juiste balans te vinden tussen automatisering en handwerk, en om op een verantwoorde manier AI toe te passen. Welke handelingen kunnen (en mogen) worden geautomatiseerd? Welke behoeven extra aandacht van de catalogiseerder? En bij welke functionaliteiten hebben de catalogiseerders zelf het meeste baat?
Er zijn natuurlijk altijd gevallen die maatwerk vereisen. De tool wordt daarom nu nog alleen getest binnen de retrocollectie. De belangrijkste doelen zijn overtypwerk beperken, de verwerking versnellen en de beschrijving minder foutgevoelig maken. Gespecialiseerde catalogiseerkennis is schaars en zeer kostbaar, en komt zo vrij voor complexere werkstromen en vraagstukken.
AI IN DE PRAKTIJK
AI lijkt dus een veelbelovend hulpmiddel om deze retrocollectie tijdig te verwerken, maar kent tegelijkertijd haken en ogen. De KB bepaalde begin dit jaar dat haar collecties niet mogen worden gebruikt voor het trainen van commerciële AI omdat deze modellen veelal zonder toestemming data binnenhalen. Het is dus belangrijk dat AI-gedreven uitkomsten in de bibliotheeksector, waaronder de retrotool, verantwoord omgaan met de informatie die de KB verwerkt.
Desalniettemin zijn er hoopgevende signalen: de Belgische nationale bibliotheek KBR ontwikkelt bijvoorbeeld sinds vorig jaar eenzelfde soort tool. Met het oog op de snel veranderende bibliotheekwereld is het optimaal benutten van AI—ondanks alle uitdagingen—een kwestie van het voortouw nemen.
Benieuwd naar andere afleveringen van de KB-onderzoeksrubriek? Je vindt ze in het online archief op informatieprofessional.nl. <
Om de retrocollectie van de KB te catalogiseren is de hulp ingeschakeld van AI. Belangrijk daarbij is de balans te vinden tussen wat automatisch kan worden gedaan en wat door de mens. Inkijkje in de retrotool.
IP | vakblad voor informatieprofessionals | 05 / 2024
De werkplekopzet met de documentscanner rechts