Het (LHBT+)web
doorgronden
via hyperlinks

HYPERLINKANALYSE       JESPER VERHOEF EN IRIS GELDERMANS

Jesper Verhoef 
Onderzoeker op het gebied van digitization, media and popular culture, cultural heritage and creative industries aan de Erasmus Universiteit Rotterdam; KB researcher-in-residence

Webarchieven zijn belangrijk, toch worden ze nog maar weinig als bron voor onderzoek gebruikt. Dat is jammer, want daardoor zien onderzoekers ook de vele mogelijkheden niet, zo betogen de auteurs. Ze doken specifiek in de LHBT+-webcollectie van de KB om te laten zien hoe betekenisvolle hyperlinkanalyses kunnen worden gemaakt en om aan te tonen dat er verschillende typen links bestaan.

Levensaders van het internet

Figuur 5: Netwerkvisualisatie van de script-links. Hier worden alle websites getoond waarnaar tweemaal of vaker wordt verwezen. De grootte en de kleur van de node hangen, net als in figuur 4, af van hoe vaak er naar de website wordt verwezen door andere domeinen. 

Figuur 4: Netwerkvisualisatie van de img-links. Hier worden alle websites getoond waarnaar tweemaal of vaker wordt verwezen. De grootte van de node hangt af van hoe vaak er naar de website wordt verwezen door andere domeinen. Ook de kleur van de node hangt af van het aantal keer dat er naar de website wordt verwezen: meest verwezen is grijs, de middenmoot is bruin en minst verwezen is geel.

Figuur 3: Voorbeeld van hoe een afbeelding gecodeerd in een tag staat op een website. 

Figuur 2: Afbeelding onderliggende html-tags van https://lab.kb.nl/dataset/historical-growth-kb-web-archive.

Over html-tags

Een tag is een label waarmee in html-code stukken tekst en afbeeldingen, maar ook andere onderdelen van een website, worden gelabeld. Zo kunnen paragrafen worden getagd met <p> of titels van een tekst met <p> of titels van een tekst met <h1>, zoals te zien is in figuur 2.

In dit onderzoek werden de tags anchor <a>, image <img> en script <script> als voorbeeld gebruikt. Hierbij staan img en script voor labels die bijvoorbeeld logo’s aanduiden als een image (zie ook figuur 3) en Javascript als een script. Waar image- en script-links meestal niet direct zichtbaar zijn op de website (alleen in de broncode), zijn anchor-links dat wel. Dit zijn de links waar iedere websitebezoeker bekend mee is: ze verwijzen door naar een andere plek, op dezelfde of een andere webpagina. Zulke links staan ook in dit IP-artikel. Als de gebruiker er nog niet op heeft geklikt, zijn ze blauw; als dat wel is gebeurd, zijn ze paars. 

Voor een overzicht van html-tags zie: w3schools.com/tags/default.asp.

Figuur 1: Uitsnede van een clusteranalysevisualisatie. Opgenomen zijn LHBT+-websites waarnaar in 2020 door ten minste vijf van de 201 websites via een hyperlink werd verwezen. Het rode cluster is duidelijk een ‘religieus cluster’: alle christelijke queerwebsites verwezen met name naar elkaar. Websites die (mede) gericht zijn op Nederlandse queermoslims, zoals maruf.eu, behoren tot hetzelfde cluster, maar hangen er minder sterk mee samen. Verder valt te zien dat de grootte van de nodes en de bijbehorende URL overeenkomt met het aantal websites dat ernaar verwijst. En: deze visualisatie bevat meer dan 201 websites, want ze richt zich op alle queerwebsites waarnaar zij verwezen.

‘We hopen dat ons onderzoek ook andere onderzoekers aanzet tot het gebruik van webarchieven en hyperlinkanalyse’

‘Het uitsplitsen van verschillende typen hyperlinks kan van belang zijn omdat het tot verschillende onderzoeksvragen kan leiden’

‘Het onderstreept dat het Nederlandse online queerlandschap een intrinsiek onderdeel is van ons gezamenlijke cultureel erfgoed’

‘Als blijkt dat (vaak) naar een website is gelinkt, kan dat aanleiding geven deze link in de collectie op te nemen en te archiveren’

‘Net als voetnoten in academische teksten zeggen links iets over de identiteit van websites: met welke andere sites associëren ze zich?’

img

script

anchor

Fontawesome.com

0

14

0

Gravatar.com

100

3

20

Facebook

61

17

372

Google

24

203

415

Totaal hyperlinks gevonden per tag

1.105

615

45.873

Tabel 1. Hoe vaak wordt er naar elk van de vier websites verwezen door LHBT+-websites? (Tabel 2 toont hoeveel keer een hyperlink met deze specifieke tag in totaal is gevonden in het corpus.)

Al meer dan vijftien jaar archiveren instellingen zoals de KB websites. Het wereldwijde web neemt zo’n centrale plaats in ons leven in dat deze webarchieven onontbeerlijk zijn om ons recente verleden te begrijpen. Dat geldt zeker voor dat van gemarginaliseerde groepen, zoals LHBT+-personen. Online vinden zij informatie en een gemeenschap van gelijkstemden die voor hen van levensbelang zijn. Het is dan ook toe te juichen dat de KB een speciale LHBT+-collectie heeft gecreëerd die gearchiveerde websites van inmiddels al meer dan vierhonderd queerorganisaties en -individuen bevat.

IN DE KINDERSCHOENEN
Gezien het belang van deze webarchieven, en dat van de LHBT+-collectie in het bijzonder, is het opvallend dat hier amper gebruik van wordt gemaakt; onderzoek ernaar staat nog in de kinderschoenen. Er lijkt sprake van een vicieuze cirkel. Zoals Willem Jan Faber eerder dit jaar in IP #4-2023 opmerkte: pas tijdens het gebruik van een collectie gearchiveerde websites blijkt hoe nuttig die kan zijn voor onderzoek. Als een dergelijk gebruik – waar technische haken en ogen aan zitten waar we in dit artikel niet op ingaan – uitblijft, zien onderzoekers ook de vele mogelijkheden niet. Daardoor blijven ze zich verlaten op andere, makkelijker toegankelijke bronnen, zoals gedigitaliseerde kranten, die het recente verleden echter niet afdoende rechtdoen.

Wij pogen deze cirkel te doorbreken. Het afgelopen halfjaar hebben we in het kader van het onderzoeksproject van KB researcher-in-residence Jesper Verhoef de al genoemde LHBT+-webcollectie onderzocht. In dit artikel zullen we aan de hand van concrete voorbeelden demonstreren hoe betekenisvolle hyperlinkanalyses kunnen worden uitgevoerd. Aansluitend betogen we dat onderzoekers onder andere oog moeten hebben voor het feit dat er verschillende typen links bestaan.

NETWERKEN IN KAART
Het belang van hyperlinks wordt breed onderkend: dit is het onderscheidende kenmerk van het internet. Net als bijvoorbeeld voetnoten in academische teksten zeggen links iets over de identiteit van websites: met welke andere sites associëren ze zich? Door hyperlinks systematisch te onderzoeken kunnen netwerken in kaart worden gebracht. Zo kunnen verschillende vragen worden beantwoord die zowel voor onderzoekers als voor bibliotheken van belang zijn. We presenteren hieronder enkele voorbeelden die zijn gebaseerd op een casestudy naar 201 gearchiveerde Nederlandse queerwebsites (voor informatie over de samenstelling van het corpus, klik hier). In dit artikel beperken we ons tot gearchiveerde websites uit 2020.

BLINDE VLEKKEN BLOOTLEGGEN
Hyperlinkanalyses kunnen blinde vlekken van collectiespecialisten blootleggen. Als blijkt dat (vaak) naar een website is gelinkt, kan dat aanleiding geven deze in de collectie op te nemen en te archiveren. Verhoef heeft daartoe voor alle websites waarnaar de 201 onderzochte websites één of meer keer verwezen – vele duizenden in totaal – gecheckt of dit een website gericht op LHBT+-personen was. Hij bracht in kaart welke websites daarvan anno 2023 nog steeds online zijn maar niet in de LHBT+-collectie zijn opgenomen. Dit geldt bijvoorbeeld voor zeker twintig queersportverenigingen, zoals roze tennisvereniging smashing.pink, en tien zangkoren, zoals homomannenkoor voxrosa.nl.

Een mooie bijkomstigheid van dit onderzoeksproces is dat het licht werpt op de weidsheid en rijke geschakeerdheid van het Nederlandse online queerlandschap. Het onderstreept dat dit landschap een intrinsiek onderdeel is van ons gezamenlijke Nederlandse cultureel erfgoed dat met zorg moet worden gepreserveerd.

(TRANS)NATIONAAL
Hyperlinks bieden bovendien antwoord op de vraag in hoeverre er sprake was van een nationaal netwerk, dus: in hoeverre verwijzen de 201 websites naar andere Nederlandse queerwebsites? Het antwoord: zeer sterk. Van de vijftig populairste websites zijn er maar liefst 49 Nederlands; de enige uitzondering is de internationale LHBT-nieuwssite advocate.com. Deze bevinding plaatst vraagtekens bij bestaand onderzoek dat suggereert dat het bestaan van queers, zeker in het online leven, inherent transnationaal zou zijn.

Voorts bieden hyperlinkanalyses inzicht in de vraag: welke websites stonden centraal in het LHBT+-netwerk? Bestaand onderzoek had al uitgewezen dat de grootste Nederlandse LHBT+-belangenorganisatie COC een sleutelpositie inneemt binnen internationale netwerken van queerorganisaties. Ook binnen het Nederlandse queernetwerk blijkt COC dominant: 81 van de 201 websites in het corpus verwezen ernaar (‘zelfreferenties’ zijn niet meegerekend). Dat is bijna twee keer vaker dan naar elk van de nummers twee tot en met vier: switchboard.nl (‘een anonieme, veilige plek [voor en door de LHBTI+-gemeenschap] waar iedereen informatie, steun of een luisterend oor kan vinden’), pride.amsterdam en transgendernetwerk.nl.

NETWERKVISUALISATIES
Van deze resultaten kunnen vervolgens netwerkvisualisaties worden gemaakt die tot nieuwe inzichten leiden. Een opensourceprogramma als Gephi kan onder meer nader licht werpen op clusters die bepaalde groepen websites vormden binnen het overkoepelende LHBT+-netwerk. De LHBT+-webcollectie van de KB omvat ook websites gericht op gelovige queers, met name op christenen. Dit doet de vraag rijzen: linken deze websites significant vaker naar elkaar dan naar andere queerwebsites? Figuur 1 geeft in een oogopslag aan dat dat inderdaad het geval is: alle christelijke websites in het corpus – zoals christenqueer.nl en wijdekerk.nl – verwijzen met name naar elkaar. Er blijkt daarnaast bijvoorbeeld een sterk ‘transcluster’ te zijn, bestaande uit websites gericht op transgenders (in figuur 1 donkerpaars).

De komende periode zal Verhoef onderzoeken in hoeverre door de tijd heen verandering in al deze bevindingen is opgetreden. We hopen dat de hier gepresenteerde greep uit de vele vragen die webarchieven, en in het bijzonder daaraan onttrokken hyperlinks, kunnen helpen beantwoorden, ook andere onderzoekers aanzet tot het gebruik van webarchieven. In de volgende sectie onderstrepen we dat het daarbij van belang is dat zij nadenken over de aard van hyperlinks.

HET LABELEN VAN TAGS
Opvallend is dat onderzoekers er vaak aan voorbijgaan dat er verschillende typen hyperlinks zijn. Ze gebruiken off-the-shelf tools, die feitelijk een black box zijn en geen onderscheid maken tussen links, terwijl dit wel van belang kan zijn. Binnen de KB is een script ontwikkeld dat hiertoe in staat is. Het haalt niet alleen hyperlinks uit het WARC-bestand, het format waar elke gearchiveerde website van de KB in resulteert, maar maakt ook onderscheid tussen onder andere anchor-, script- en image-tags waarin de hyperlinks staan; het type hyperlink. Alle analyses in de vorige sectie zijn gebaseerd op uitsluitend anchor-links.

ONDERSCHEID TYPEN HYPERLINKS
Om het belang van het onderscheiden van typen hyperlinks te illustreren zijn vier verschillende websites geselecteerd. Deze websites zijn gevonden op de websites uit het corpus van 201 LHBT+-websites; de LHBT+-websites verwezen dus in hun tekst of in de code naar deze domeinen. Ze deden dit echter op verschillende wijzen: de ene keer was de website waarnaar verwezen werd een script, de andere keer was dit een afbeelding. In de voorbeelden is gekozen voor een website die maar één type link, <script>, leverde (Fontawesome.com), een website die bekendstaat als leverancier van afbeeldingen (Gravatar) en twee bekende platforms (Facebook en Google). 

Tabel 1 geeft weer hoe in het LHBT+-corpus naar deze domeinen werd verwezen, uitgesplitst naar de tags die om de hyperlink heen stonden, in dit geval <img> (image), <script> of <a> (anchor). In tabel 2 staan de verhoudingen, dus hoe groot het aandeel van de website is ten opzichte van het geheel van de gevonden hyperlinks met die specifieke tag op websites uit het corpus van de 201 LHBT+-websites. 

img

script

anchor

Fontawesome.com

0,00%

2,28%

0,00%

Gravatar.com

9,05%

0,49%

0,04%

Facebook

5,52%

2,76%

0,81%

Google

2,17%

33,01%

0,90%

Tabel 2. Aandeel van de vier websites in percentages van het totaal aantal gevonden tags (het in tabel 1 genoemde totaal aantal hyperlinks gevonden per tag). 

Als alle typen links uit tabel 1 in één visualisatie zouden worden gepresenteerd, dan zou Google dominant zijn, omdat deze in alle groepen aanwezig is en ook nog eens in groten getale. Als de hyperlinks echter worden uitgesplitst naar type hyperlink, dan komt er, zeker bij img, een ander beeld naar voren, zoals te zien is in figuur 4. Daar scoren zowel Facebook als Gravatar veel hoger dan Google. Gravatar steekt er zelfs met kop en schouders bovenuit.

NUANCES VERLOREN
Daarnaast zijn platforms die het website-maken faciliteren nadrukkelijk aanwezig, zoals WordPress en Blogspot, maar ook platforms gericht op afbeeldingen, zoals Instagram, Pinterest en Tumblr, verschijnen in deze visualisatie. Figuur 5 toont juist wel Google als grootste node (waar het meest naar verwezen wordt), maar hier komen fontwebsites (websites die opmaakscriptjes verzorgen) en Javascript-websites pontificaal naar voren; websites die niet in de image-visualisatie voorkomen. Met andere woorden: wanneer hyperlinks worden gegroepeerd zonder aandacht voor het soort tag dat om de link heen staat, scoren websites die zowel scripts leveren als images verschaffen en als een anchor-link zijn ingevoegd – wat bijvoorbeeld voor Google en Facebook, maar ook voor Twitter en WordPress geldt – het hoogst. Hierdoor kunnen nuances verloren gaan. 

WEBCOLLECTIES ALS BRON
Het uitsplitsen van verschillende typen hyperlinks kan dus van belang zijn omdat het tot verschillende onderzoeksvragen kan leiden. Bij onderzoek naar gebruikte technieken om websites te bouwen door de jaren heen zal een onderzoeker meer hebben aan tags als frame en script, terwijl wanneer hij of zij netwerken van websites wil onderzoeken meer zal hebben aan anchor-links. Onderzoek naar embedded materiaal en/of platforms kan juist weer gebruikmaken van tags als img, script, form, embed, source of object om zo de groei van bijvoorbeeld social media, Tumblr of Gravatar in kaart te brengen. 

Concluderend: onderzoek naar webarchieven is hoognodig, zeker waar dat websites van minderheden betreft. We hebben aangestipt hoe hyperlinks een veelbelovende ingang bieden, op basis waarvan ook (historische) netwerken in kaart kunnen worden gebracht. Onze hoop is dat dit artikel andere onderzoekers aanspoort om de handschoen op te pakken en webcollecties als bron te gaan inzetten. Wanneer ze daarbij bovendien alert zijn op de aard van de data, waaronder de verschillende typen hyperlinks die bestaan, kan onderzoek naar gearchiveerde websites eindelijk de kinderschoenen ontgroeien en werkelijk volwassen worden. <

IP | vakblad voor informatieprofessionals | 09 / 2023

JESPER VERHOEF EN IRIS GELDERMANS

HYPERLINKANALYSE 

Jesper Verhoef 
Onderzoeker op het gebied van digitization, media and popular culture, cultural heritage and creative industries aan de Erasmus Universiteit Rotterdam; KB researcher-in-residence

Levensaders van het internet

Het (LHBT+)web
doorgronden
via hyperlinks

Webarchieven zijn belangrijk, toch worden ze nog maar weinig als bron voor onderzoek gebruikt. Dat is jammer, want daardoor zien onderzoekers ook de vele mogelijkheden niet, zo betogen de auteurs. Ze doken specifiek in de LHBT+-webcollectie van de KB om te laten zien hoe betekenisvolle hyperlinkanalyses kunnen worden gemaakt en om aan te tonen dat er verschillende typen links bestaan.

Figuur 4: Netwerkvisualisatie van de img-links. Hier worden alle websites getoond waarnaar tweemaal of vaker wordt verwezen. De grootte van de node hangt af van hoe vaak er naar de website wordt verwezen door andere domeinen. Ook de kleur van de node hangt af van het aantal keer dat er naar de website wordt verwezen: meest verwezen is grijs, de middenmoot is bruin en minst verwezen is geel.

<

Figuur 3: Voorbeeld van hoe een afbeelding gecodeerd in een tag staat op een website. 

Figuur 1: Uitsnede van een clusteranalysevisualisatie. Opgenomen zijn LHBT+-websites waarnaar in 2020 door ten minste vijf van de 201 websites via een hyperlink werd verwezen. Het rode cluster is duidelijk een ‘religieus cluster’: alle christelijke queerwebsites verwezen met name naar elkaar. Websites die (mede) gericht zijn op Nederlandse queermoslims, zoals maruf.eu, behoren tot hetzelfde cluster, maar hangen er minder sterk mee samen. Verder valt te zien dat de grootte van de nodes en de bijbehorende URL overeenkomt met het aantal websites dat ernaar verwijst. En: deze visualisatie bevat meer dan 201 websites, want ze richt zich op alle queerwebsites waarnaar zij verwezen.

Al meer dan vijftien jaar archiveren instellingen zoals de KB websites. Het wereldwijde web neemt zo’n centrale plaats in ons leven in dat deze webarchieven onontbeerlijk zijn om ons recente verleden te begrijpen. Dat geldt zeker voor dat van gemarginaliseerde groepen, zoals LHBT+-personen. Online vinden zij informatie en een gemeenschap van gelijkstemden die voor hen van levensbelang zijn. Het is dan ook toe te juichen dat de KB een speciale LHBT+-collectie heeft gecreëerd die gearchiveerde websites van inmiddels al meer dan vierhonderd queerorganisaties en -individuen bevat.

IN DE KINDERSCHOENEN
Gezien het belang van deze webarchieven, en dat van de LHBT+-collectie in het bijzonder, is het opvallend dat hier amper gebruik van wordt gemaakt; onderzoek ernaar staat nog in de kinderschoenen. Er lijkt sprake van een vicieuze cirkel. Zoals Willem Jan Faber eerder dit jaar in IP #4-2023 opmerkte: pas tijdens het gebruik van een collectie gearchiveerde websites blijkt hoe nuttig die kan zijn voor onderzoek. Als een dergelijk gebruik – waar technische haken en ogen aan zitten waar we in dit artikel niet op ingaan – uitblijft, zien onderzoekers ook de vele mogelijkheden niet. Daardoor blijven ze zich verlaten op andere, makkelijker toegankelijke bronnen, zoals gedigitaliseerde kranten, die het recente verleden echter niet afdoende rechtdoen.

Wij pogen deze cirkel te doorbreken. Het afgelopen halfjaar hebben we in het kader van het onderzoeksproject van KB researcher-in-residence Jesper Verhoef de al genoemde LHBT+-webcollectie onderzocht. In dit artikel zullen we aan de hand van concrete voorbeelden demonstreren hoe betekenisvolle hyperlinkanalyses kunnen worden uitgevoerd. Aansluitend betogen we dat onderzoekers onder andere oog moeten hebben voor het feit dat er verschillende typen links bestaan.

NETWERKEN IN KAART
Het belang van hyperlinks wordt breed onderkend: dit is het onderscheidende kenmerk van het internet. Net als bijvoorbeeld voetnoten in academische teksten zeggen links iets over de identiteit van websites: met welke andere sites associëren ze zich? Door hyperlinks systematisch te onderzoeken kunnen netwerken in kaart worden gebracht. Zo kunnen verschillende vragen worden beantwoord die zowel voor onderzoekers als voor bibliotheken van belang zijn. We presenteren hieronder enkele voorbeelden die zijn gebaseerd op een casestudy naar 201 gearchiveerde Nederlandse queerwebsites (voor informatie over de samenstelling van het corpus, klik hier). In dit artikel beperken we ons tot gearchiveerde websites uit 2020.

BLINDE VLEKKEN BLOOTLEGGEN
Hyperlinkanalyses kunnen blinde vlekken van collectiespecialisten blootleggen. Als blijkt dat (vaak) naar een website is gelinkt, kan dat aanleiding geven deze in de collectie op te nemen en te archiveren. Verhoef heeft daartoe voor alle websites waarnaar de 201 onderzochte websites één of meer keer verwezen – vele duizenden in totaal – gecheckt of dit een website gericht op LHBT+-personen was. Hij bracht in kaart welke websites daarvan anno 2023 nog steeds online zijn maar niet in de LHBT+-collectie zijn opgenomen. Dit geldt bijvoorbeeld voor zeker twintig queersportverenigingen, zoals roze tennisvereniging smashing.pink, en tien zangkoren, zoals homomannenkoor voxrosa.nl.

Een mooie bijkomstigheid van dit onderzoeksproces is dat het licht werpt op de weidsheid en rijke geschakeerdheid van het Nederlandse online queerlandschap. Het onderstreept dat dit landschap een intrinsiek onderdeel is van ons gezamenlijke Nederlandse cultureel erfgoed dat met zorg moet worden gepreserveerd.

(TRANS)NATIONAAL
Hyperlinks bieden bovendien antwoord op de vraag in hoeverre er sprake was van een nationaal netwerk, dus: in hoeverre verwijzen de 201 websites naar andere Nederlandse queerwebsites? Het antwoord: zeer sterk. Van de vijftig populairste websites zijn er maar liefst 49 Nederlands; de enige uitzondering is de internationale LHBT-nieuwssite advocate.com. Deze bevinding plaatst vraagtekens bij bestaand onderzoek dat suggereert dat het bestaan van queers, zeker in het online leven, inherent transnationaal zou zijn.

Voorts bieden hyperlinkanalyses inzicht in de vraag: welke websites stonden centraal in het LHBT+-netwerk? Bestaand onderzoek had al uitgewezen dat de grootste Nederlandse LHBT+-belangenorganisatie COC een sleutelpositie inneemt binnen internationale netwerken van queerorganisaties. Ook binnen het Nederlandse queernetwerk blijkt COC dominant: 81 van de 201 websites in het corpus verwezen ernaar (‘zelfreferenties’ zijn niet meegerekend). Dat is bijna twee keer vaker dan naar elk van de nummers twee tot en met vier: switchboard.nl (‘een anonieme, veilige plek [voor en door de LHBTI+-gemeenschap] waar iedereen informatie, steun of een luisterend oor kan vinden’), pride.amsterdam en transgendernetwerk.nl.

NETWERKVISUALISATIES
Van deze resultaten kunnen vervolgens netwerkvisualisaties worden gemaakt die tot nieuwe inzichten leiden. Een opensourceprogramma als Gephi kan onder meer nader licht werpen op clusters die bepaalde groepen websites vormden binnen het overkoepelende LHBT+-netwerk. De LHBT+-webcollectie van de KB omvat ook websites gericht op gelovige queers, met name op christenen. Dit doet de vraag rijzen: linken deze websites significant vaker naar elkaar dan naar andere queerwebsites? Figuur 1 geeft in een oogopslag aan dat dat inderdaad het geval is: alle christelijke websites in het corpus – zoals christenqueer.nl en wijdekerk.nl – verwijzen met name naar elkaar. Er blijkt daarnaast bijvoorbeeld een sterk ‘transcluster’ te zijn, bestaande uit websites gericht op transgenders (in figuur 1 donkerpaars).

De komende periode zal Verhoef onderzoeken in hoeverre door de tijd heen verandering in al deze bevindingen is opgetreden. We hopen dat de hier gepresenteerde greep uit de vele vragen die webarchieven, en in het bijzonder daaraan onttrokken hyperlinks, kunnen helpen beantwoorden, ook andere onderzoekers aanzet tot het gebruik van webarchieven. In de volgende sectie onderstrepen we dat het daarbij van belang is dat zij nadenken over de aard van hyperlinks.

HET LABELEN VAN TAGS
Opvallend is dat onderzoekers er vaak aan voorbijgaan dat er verschillende typen hyperlinks zijn. Ze gebruiken off-the-shelf tools, die feitelijk een black box zijn en geen onderscheid maken tussen links, terwijl dit wel van belang kan zijn. Binnen de KB is een script ontwikkeld dat hiertoe in staat is. Het haalt niet alleen hyperlinks uit het WARC-bestand, het format waar elke gearchiveerde website van de KB in resulteert, maar maakt ook onderscheid tussen onder andere anchor-, script- en image-tags waarin de hyperlinks staan; het type hyperlink. Alle analyses in de vorige sectie zijn gebaseerd op uitsluitend anchor-links.

ONDERSCHEID TYPEN HYPERLINKS
Om het belang van het onderscheiden van typen hyperlinks te illustreren zijn vier verschillende websites geselecteerd. Deze websites zijn gevonden op de websites uit het corpus van 201 LHBT+-websites; de LHBT+-websites verwezen dus in hun tekst of in de code naar deze domeinen. Ze deden dit echter op verschillende wijzen: de ene keer was de website waarnaar verwezen werd een script, de andere keer was dit een afbeelding. In de voorbeelden is gekozen voor een website die maar één type link, <script>, leverde (Fontawesome.com), een website die bekendstaat als leverancier van afbeeldingen (Gravatar) en twee bekende platforms (Facebook en Google). 

Tabel 1 geeft weer hoe in het LHBT+-corpus naar deze domeinen werd verwezen, uitgesplitst naar de tags die om de hyperlink heen stonden, in dit geval <img> (image), <script> of <a> (anchor). In tabel 2 staan de verhoudingen, dus hoe groot het aandeel van de website is ten opzichte van het geheel van de gevonden hyperlinks met die specifieke tag op websites uit het corpus van de 201 LHBT+-websites. 

img

script

anchor

Fontawesome.com

0

14

0

Gravatar.com

100

3

20

Facebook

61

17

372

Google

24

203

415

Totaal hyperlinks gevonden per tag

1.105

615

45.873

Tabel 1. Hoe vaak wordt er naar elk van de vier websites verwezen door LHBT+-websites? (Tabel 2 toont hoeveel keer een hyperlink met deze specifieke tag in totaal is gevonden in het corpus.)

img

script

anchor

Fontawesome.com

0,00%

2,28%

0,00%

Gravatar.com

9,05%

0,49%

0,04%

Facebook

5,52%

2,76%

0,81%

Google

2,17%

33,01%

0,90%

Tabel 2. Aandeel van de vier websites in percentages van het totaal aantal gevonden tags (het in tabel 1 genoemde totaal aantal hyperlinks gevonden per tag). 

Als alle typen links uit tabel 1 in één visualisatie zouden worden gepresenteerd, dan zou Google dominant zijn, omdat deze in alle groepen aanwezig is en ook nog eens in groten getale. Als de hyperlinks echter worden uitgesplitst naar type hyperlink, dan komt er, zeker bij img, een ander beeld naar voren, zoals te zien is in figuur 4. Daar scoren zowel Facebook als Gravatar veel hoger dan Google. Gravatar steekt er zelfs met kop en schouders bovenuit.

NUANCES VERLOREN
Daarnaast zijn platforms die het website-maken faciliteren nadrukkelijk aanwezig, zoals WordPress en Blogspot, maar ook platforms gericht op afbeeldingen, zoals Instagram, Pinterest en Tumblr, verschijnen in deze visualisatie. Figuur 5 toont juist wel Google als grootste node (waar het meest naar verwezen wordt), maar hier komen fontwebsites (websites die opmaakscriptjes verzorgen) en Javascript-websites pontificaal naar voren; websites die niet in de image-visualisatie voorkomen. Met andere woorden: wanneer hyperlinks worden gegroepeerd zonder aandacht voor het soort tag dat om de link heen staat, scoren websites die zowel scripts leveren als images verschaffen en als een anchor-link zijn ingevoegd – wat bijvoorbeeld voor Google en Facebook, maar ook voor Twitter en WordPress geldt – het hoogst. Hierdoor kunnen nuances verloren gaan. 

WEBCOLLECTIES ALS BRON
Het uitsplitsen van verschillende typen hyperlinks kan dus van belang zijn omdat het tot verschillende onderzoeksvragen kan leiden. Bij onderzoek naar gebruikte technieken om websites te bouwen door de jaren heen zal een onderzoeker meer hebben aan tags als frame en script, terwijl wanneer hij of zij netwerken van websites wil onderzoeken meer zal hebben aan anchor-links. Onderzoek naar embedded materiaal en/of platforms kan juist weer gebruikmaken van tags als img, script, form, embed, source of object om zo de groei van bijvoorbeeld social media, Tumblr of Gravatar in kaart te brengen. 

Concluderend: onderzoek naar webarchieven is hoognodig, zeker waar dat websites van minderheden betreft. We hebben aangestipt hoe hyperlinks een veelbelovende ingang bieden, op basis waarvan ook (historische) netwerken in kaart kunnen worden gebracht. Onze hoop is dat dit artikel andere onderzoekers aanspoort om de handschoen op te pakken en webcollecties als bron te gaan inzetten. Wanneer ze daarbij bovendien alert zijn op de aard van de data, waaronder de verschillende typen hyperlinks die bestaan, kan onderzoek naar gearchiveerde websites eindelijk de kinderschoenen ontgroeien en werkelijk volwassen worden.

Figuur 2: Afbeelding onderliggende html-tags van https://lab.kb.nl/dataset/historical-growth-kb-web-archive.

Over html-tags

Een tag is een label waarmee in html-code stukken tekst en afbeeldingen, maar ook andere onderdelen van een website, worden gelabeld. Zo kunnen paragrafen worden getagd met <p> of titels van een tekst met <p> of titels van een tekst met <h1>, zoals te zien is in figuur 2.

In dit onderzoek werden de tags anchor <a>, image <img> en script <script> als voorbeeld gebruikt. Hierbij staan img en script voor labels die bijvoorbeeld logo’s aanduiden als een image (zie ook figuur 3) en Javascript als een script. Waar image- en script-links meestal niet direct zichtbaar zijn op de website (alleen in de broncode), zijn anchor-links dat wel. Dit zijn de links waar iedere websitebezoeker bekend mee is: ze verwijzen door naar een andere plek, op dezelfde of een andere webpagina. Zulke links staan ook in dit IP-artikel. Als de gebruiker er nog niet op heeft geklikt, zijn ze blauw; als dat wel is gebeurd, zijn ze paars. 

Voor een overzicht van html-tags zie: w3schools.com/tags/default.asp.

Figuur 5: Netwerkvisualisatie van de script-links. Hier worden alle websites getoond waarnaar tweemaal of vaker wordt verwezen. De grootte en de kleur van de node hangen, net als in figuur 4, af van hoe vaak er naar de website wordt verwezen door andere domeinen. 

IP | vakblad voor informatieprofessionals | 09 / 2023