KB Onderzoekskroniek

Figuur 2. Dezelfde visualisatie als figuur 1, alleen dan met tekst en de nodegrootte gebaseerd op degree. De websites waarop links gevonden zijn domineren nu de visualisatie.

Figuur 1. Voorbeeld van een linkvisualisatie van twee websites uit de dataset van september 2016. De groene nodes zijn de gearchiveerde websites waarop links gevonden zijn, de rode nodes zijn de gevonden links. Hoe dikker de lijn, hoe vaker er naar een gevonden website wordt verwezen. De labelgrootte is gebaseerd op outdegree, de nodegrootte op indegree.

Iris Geldermans
Junior onderzoeker webarchief bij de KB, de nationale bibliotheek

KB ONDERZOEKSKRONIEK Iris Geldermans

Een WARC (Web ARChive) is een bestandstype waarin gearchiveerde websites worden opgeslagen samen met een metadatalaag die details van het archiveringsproces bevat.

Hoe vaak verwijzen gearchiveerde websites naar sociale media? De KB voerde samen met het NDE een linkanalyse uit op haar data – inclusief visualisaties.

Lijntjes trekken

tussen sites

en socials

Vorig jaar heeft de KB in samenwerking met het Netwerk Digitaal Erfgoed (NDE) voor het eerst een linkanalyse uitgevoerd op gearchiveerde data uit haar webcollectie. Het doel hiervan was te onderzoeken hoe vaak gearchiveerde websites verwijzen naar socialemediaplatforms en welke dat zijn. Hiervoor zijn gearchiveerde WARC-bestanden [>] geanalyseerd uit de maand september in de jaren 2010, 2013, 2016 en 2019.
De KB heeft een selectieve webcollectie, wat inhoudt dat websites per stuk worden gearchiveerd. Het vinden van de WARC-bestanden op basis van een archiveringsdatum was daarom eenvoudig. Uit deze dataset hebben we vervolgens alle links getrokken die deze tags bevatten: <a>, <link>, <area>, <img>, <script>, <embed>, <source>, <frame>, <iframe> en <track>. Dit leverde een dataset op met ‘webpagina waarop de link was gevonden’, ‘gevonden hyperlink’, en metadata zoals het tijdstip en de datum waarop het specifieke object was geharvest.

STRINGS WEGKNIPPEN
De links waren alleen lastig te visualiseren omdat er veel unieke (pagina/object) links in zaten. Voor dit onderzoek zijn ze daarom teruggebracht tot hele domeinen (kb.nl). Daarop hebben we de complete dataset ingeladen in een HeidiSQL (MariaDB)-omgeving en daar alle hyperlinks bewerkt door eerst alles links van de string ‘//’ te verwijderen om zo de ‘https://’ en ‘http://’ weg te knippen. Vervolgens hebben we alle pagina’s weggeknipt door alles rechts van de ‘/’ te verwijderen, en ten slotte nog de string ‘www.’. Dit leverde geen perfect resultaat op, maar wel goed genoeg voor een pilotproject.
Na het verwerken van de hyperlinks konden we de dataset groeperen, zodat duidelijk werd hoe vaak domein A naar domein B verwijst. Vervolgens konden we deze lijst, bestaand uit ‘domein A’, ‘domein B’ en ‘aantal verwijzingen’, importeren in visualisatietool Gephi.

DEGREE OF INDEGREE
Een visualisatie ziet er al snel indrukwekkend uit, maar er is wel uitleg en context bij nodig. Ten eerste: de visualisatie van een webcollectie is altijd incompleet. Dit komt simpelweg doordat het archief incompleet is. Domein A verwijst naar domein B, maar de kans is groot dat domein B niet gearchiveerd is. Wanneer er vervolgens een visualisatie wordt gemaakt op basis van degree (hoe vaak één node [website] verwijst naar andere nodes, plus hoe vaak er naar de node verwezen wordt), zal zij de gearchiveerde websites als grootste nodes tonen. Deze verwijzen immers het vaakst naar andere (niet-archiveerde) nodes. Daarom hebben we er bij dit onderzoek voor gekozen om de nodegrootte te baseren op indegree (hoe vaak er naar een node verwezen wordt). Dit paste ook bij ons onderzoek naar de link tussen gearchiveerde sites en socialemediaplatforms.

WAAR IS HYVES GEBLEVEN?
Een tweede probleem is dat de visualisatie de meest constante voorbewerkte hyperlinks toont: Facebook, Twitter en YouTube boven Hyves en Blogspot. De eerste groep is namelijk opgebouwd als facebook.nl/account (wordt opgeknipt als facebook.nl), en de tweede groep als account.hyves.nl/ (wordt opgeknipt als account.hyves.nl). Hierdoor worden de Hyves-websites allemaal individuele nodes, terwijl Facebook één grote node wordt en daardoor in de visualisatie veel duidelijker aanwezig is. Een linkvisualisatie zou daarom altijd moeten worden aangevuld met bijvoorbeeld onderzoek naar termen in de dataset.

> Meer over het onderzoeksproces, de resultaten en de lessons learned lees je in een nieuwe blogreeks op lab.kb.nl: Analysing hyperlinks in the KB web collection.

> Benieuwd naar andere afleveringen van de KB-onderzoeksrubriek? Je vindt ze in het online archief op informatieprofessional.nl. <

In de rubriek
‘KB Onderzoekskroniek’ beschrijven medewerkers
van de afdeling Onderzoek van
de Koninklijke Bibliotheek
hun resultaten, trends
en vondsten.

IP | vakblad voor informatieprofessionals | 05 / 2022